Google 最新發佈的 Gemini 3 模型在多項 AI 基準測試中超越了 OpenAI 的 GPT 5.1,展現了其在推理和多模態能力方面的優勢。該模型在 LMArena 排行榜上獲得了 1501 Elo 評分,並在多個基準測試中取得了優異成績。Google 強調,Gemini 3 的推出將推動 AI 技術的發展,並為用戶提供更強大的智能體驗。

重點文章
基準測試表現
Gemini 3 在多個基準測試中表現出色。在 Humanity’s Last Exam 中獲得 37.5% 的分數,GPQA Diamond 測試中獲得 91.9% 的分數,MathArena Apex 測試中獲得 23.4% 的分數。在多模態推理方面,Gemini 3 Pro 在 MMMU-Pro 上獲得 81% 的分數,在 Video-MMMU 上獲得 87.6% 的分數。在測試事實準確性的 SimpleQA Verified 測試中,該模型獲得了 72.1% 的分數。

Gemini 3 Deep Think 模式
除了 Gemini 3 Pro 之外,Google 還發佈了 Gemini 3 Deep Think 模式,在關鍵 AI 基準測試中表現更佳。根據 Google 的說法,Gemini 3 Deep Think 在 Humanity’s Last Exam 中獲得 41% 的分數,在 GPQA Diamond 中獲得 93.8% 的分數,在 ARC-AGI-2 中獲得 45.1% 的分數。儘管性能有所提升,Gemini 3 模型仍然支持 100 萬 token 的上下文窗口。

應用與發佈
Google 採取了積極的發佈計劃,Gemini 3 已被應用於 Google Search 的 AI 模式中,以實現新的生成式 UI 體驗。在 SWE-bench Verified 基準測試中,Gemini 3 Pro 獲得了 76.2% 的分數。Gemini 3 現已在 Google AI Studio、Vertex AI、Gemini CLI 等平台提供給開發者使用。對於一般用戶,Gemini 3 模型已在 Gemini 應用程式中提供。Gemini 3 Deep Think 模式將在未來幾週內提供給 Google AI Ultra 訂閱者。