퓨처 산업 비즈 소셜 트렌드

AI 업계 판도를 뒤흔든 일론 머스크의 Grok 4... OpenAI·구글·앤트로픽 제치고 벤치마크 최고 점수 기록

업계 벤치마크 석권한 신모델, 기술 혁신과 신뢰 문제 사이 갈림길

by 정대호 기자

Updated July 16, 2025

[SNS 타임즈] 최근 AI 전문 매체 조사에 따르면 xAI의 최신 AI 모델 Grok 4가 업계 벤치마크를 석권하며 AI 선두주자로 떠올랐다. 한때 일론 머스크(Elon Musk)의 값비싼 취미로 치부되던 xAI가 단숨에 오픈AI(OpenAI), 구글(Google), 앤트로픽(Anthropic)을 제치고 AI 기술의 정점에 섰다는 평가다.

하지만 뛰어난 성능만큼이나 논란도 함께 따라붙으며, xAI의 미래가 기술 혁신과 신뢰 구축 사이에서 갈림길에 놓여 있다.

Grok 4, 벤치마크 기록 갈아치워

xAI의 Grok 4는 여러 AI 평가 지표에서 경쟁 모델들을 압도하며 업계의 주목을 받았다.

AI 매체 The Deep View에 따르면, 인공지능 분석 기관인 Artificial Analysis는 Grok 4에 73점의 지능 점수를 부여했으며, 이는 오픈AI의 o3(70점), 구글의 Gemini 2.5 Pro(70점), 앤트로픽의 Claude 4 Opus(64점)를 앞선 결과다.

이는 xAI가 설립 이후 처음으로 벤치마크 순위 1위를 차지한 순간이다.

특히 Grok 4는 시각적 패턴을 분석하는 ARC-AGI-2 테스트에서 16.2%를 기록하며 기존 상용 모델 최고 점수를 두 배 가까이 뛰어넘었다. 또한 수학, 과학, 인문학을 아우르는 고난도 시험인 'Humanity's Last Exam'에서는 도구 없이 25.4%를 기록, Gemini(21.6%)와 o3(21%)를 앞질렀다.

심지어 실세계 문제 해결 능력을 평가하는 자판기 비즈니스 벤치마크에서도 Grok 4는 최고 성능을 달성했다.

xAI는 Grok 4와 함께 여러 AI 에이전트가 협력해 문제를 해결하는 방식인 Grok 4 Heavy를 공개했다. 이 모델은 'Humanity's Last Exam'에서 도구 사용 시 44.4%를 기록하며 경쟁 모델 대비 두 배 가까운 성능을 보여줬다.

이는 마치 “공기놀이처럼 여러 AI가 협력해 답을 도출한다”는 xAI의 설명처럼, 복잡한 문제를 다각도로 접근하는 새로운 방식으로 풀이된다.

비약적인 성능 뒤에 숨은 비결

Grok 4의 성능 비약은 xAI의 대규모 컴퓨팅 자원 확대에서 비롯됐다.

The Deep View는 xAI가 Grok 2 대비 100배 증가한 컴퓨팅 자원을 학습에 투입했으며, 이를 위해 자사 슈퍼컴퓨터 클러스터인 콜로서스(Colossus)를 활용했다고 전했다.

이는 앤드리슨 호로위츠(Andreessen Horowitz), 세콰이아 캐피털(Sequoia Capital), 블랙록(BlackRock) 등으로부터 조달한 171억 달러의 투자와 머스크의 막대한 자본이 뒷받침했기에 가능한 일이었다.

그러나 이런 대규모 투자는 단순한 자금 싸움이 아니라, AI 개발의 새로운 패러다임을 보여준다. 전문가들은 xAI의 접근이 컴퓨팅 자원의 한계를 넘어서는 기술적 혁신을 이끌어낼 가능성을 시사한다고 평가한다.

신뢰의 위기: 논란과 과제

Grok 4의 화려한 데뷔에도 불구하고, xAI는 신뢰 문제로 골머리를 앓고 있다.

출시 직전, Grok 3가 X 플랫폼에서 아돌프 히틀러를 찬양하는 등 반유대주의 콘텐츠를 게시해 논란을 일으켰다. xAI는 즉시 해당 게시물을 삭제하고 시스템 프롬프트를 수정했으나, Grok 4 라이브스트림에서 머스크 팀은 이 문제에 대해 일절 언급하지 않았다. 이는 단순한 기술적 오류를 넘어 기업 신뢰도와 안전성에 대한 근본적인 의문을 낳고 있다.

높은 가격, 과연 시장은 받아들일까?

xAI는 Grok 4의 상위 모델인 SuperGrok Heavy를 월 300달러에 출시했다.

이는 구글 AI Ultra(월 249.99달러)나 ChatGPT Pro(월 200달러)를 훌쩍 뛰어넘는 가격으로, 주요 제공자 중 가장 비싸다. API 가격은 앤트로픽의 Claude와 동일한 백만 토큰당 3달러로 책정됐으나, 초기 사용자들은 Grok 4가 더 많은 출력 토큰을 생성해 실제 비용이 더 높다고 지적했다.

xAI는 대중 시장보다는 고급 사용자, 연구자, 개발자를 타겟으로 삼고 있다. 하지만 높은 가격과 신뢰 문제로 인해 시장의 반응은 엇갈릴 가능성이 크다.

앞으로의 전망

xAI는 8월에 코딩 모델, 9월에 멀티모달 에이전트, 10월에 비디오 생성 기능을 출시할 계획이라고 밝혔다. 그러나 xAI의 과거 일정 준수 이력을 고려할 때 지연 가능성도 제기된다.

Grok 4의 등장은 xAI가 머스크의 부수적인 프로젝트가 아닌 AI 업계의 강자로 자리 잡았음을 보여준다. 하지만 기술적 우위를 유지하려면 안전성, 신뢰, 기업용 안정성이라는 난제를 해결해야 한다. xAI가 이 균형을 어떻게 맞춰갈지, 업계와 시장은 숨죽이며 지켜보고 있다.

- Copyright, SNS 타임즈 www.snstimes.kr

by 정대호 기자

Updated July 16, 2025