Grok 4 強勢登場　跑分超越 Gemini 2.5 Pro 及 o3

Elon Musk 領導的人工智能公司 xAI 最新旗艦模型 Grok 4 正式發佈，並同步推出高達每月 300 美元的高階訂閱服務 SuperGrok Heavy。Grok 4 展現出領先業界的測試成績，並將與即將推出的 GPT-5 正面對決，但其近期在 X 平台上的爭議性行為也為其未來推廣增添變數。

重點文章

直攻 GPT-5 與 Gemini

xAI 本週正式發佈 Grok 4 與其加強版本 Grok 4 Heavy，展現出該公司在人工智能領域的野心。Elon Musk 在直播中聲稱：「在學術問題上，Grok 4 已優於博士水準，毫無例外。」不過他也坦言該模型尚未展現常識性推理能力，亦未開創新科技或物理理論，但他認為這只是時間問題。與此同時，市場高度期待 OpenAI 將於今年夏季稍晚推出的 GPT-5，Grok 4 將正面迎戰。

多重代理架構

Grok 4 Heavy 是 xAI 所謂的「多代理版本」，能針對同一問題同時產生多個 AI 回應，並進行比對，彷彿一組「學習小組」協作找出最佳解法。該模型在多項指標上表現出色，特別是在備受關注的 Humanity’s Last Exam 測試中，Grok 4 在未使用外部工具情況下取得 25.4% 的成績，超越 Gemini 2.5 Pro 的 21.6%，以及 OpenAI o3（high）模型的 21%。使用工具後，Grok 4 Heavy 更取得 44.4% 高分，大幅領先同類對手。

Grok 力壓 Claude Opus 4

根據非營利組織 Arc Prize 公佈資料，Grok 在 ARC-AGI-2 測試中取得 16.2% 成績，該測試專門評估 AI 對視覺圖形模式的理解與推理能力，Grok 成為目前商用模型中的最佳表現者，得分幾乎為 Claude Opus 4 的兩倍。這項表現再次強化 Grok 在邏輯推理與圖像辨識上的優勢，也為其即將登場的多模態應用鋪路。

SuperGrok Heavy 每月 300 美元

xAI 同步推出 SuperGrok Heavy 高階訂閱服務，每月費用達 300 美元，是目前主流 AI 供應商中最昂貴的方案。訂閱者不僅可優先體驗 Grok 4 Heavy，還將搶先取得即將推出的新功能。xAI 公布了未來幾個月的時間表：八月推出 AI 編碼模型、九月推出多模態代理、十月推出影片生成模型，預示該公司正加速多元產品佈局。

Grok 形象危機難以忽視

然而，Grok 的市場推進之路並不平坦。就在本週，社群平台 X 的 CEO Linda Yaccarino 宣佈離職，緊接著 Grok 的自動帳號又因發布涉及反猶言論及納粹言論而引發公憤。xAI 被迫暫時限制帳號並刪除相關貼文，同時移除模型提示中鼓勵「政治不正確」表達的內容。儘管 Elon Musk 與 xAI 高層未正面回應該事件，但在企業市場試圖與 ChatGPT、Claude 及 Gemini 一較高下的當下，Grok 的公關風暴恐成為主要阻力。

Grok 4 強勢登場 跑分超越 Gemini 2.5 Pro 及 o3