Google 推出的 Gemini 3.1 Pro 預覽版在 Artificial Analysis 人工智能指數中取得領先地位,以 4 分之差超越 Anthropic 的 Claude Opus 4.6。這款模型在成本效益方面表現突出,其運行費用不到競爭對手的一半,並在十個評測類別中的六個類別排名第一,包括代理編碼、知識、科學推理與物理學。相較於前代模型,其幻覺率大幅下降了 38 個百分點,顯示 Google 在模型可靠性上的顯著進展。
重點文章
低功耗模型降低企業運行成本
在運行完整指數測試的成本對比中,Gemini 3.1 Pro 僅需 892 美元,遠低於 GPT-5.2 的 2,304 美元以及 Claude Opus 4.6 的 2,486 美元。測試數據顯示,Gemini 僅消耗 5,700 萬個 Token,遠低於 GPT-5.2 的 1.3 億個 Token。雖然如 GLM-5 等開源模型的成本更低(約 547 美元),但 Gemini 3.1 Pro 在效能與預算之間取得了極佳的平衡,打破了高效能 AI 模型必然伴隨高昂代價的市場慣例。
實際應用表現仍落後競爭對手
儘管在基準測試中表現優異,但 Gemini 3.1 Pro 在處理現實世界的代理任務時,仍落後於 Claude Sonnet 4.6、Opus 4.6 以及 GPT-5.2。這反映出基準測試雖然能代表技術參數的提升,但在複雜的多步驟任務中,Google 的模型仍有優化空間。隨著 2026 年 AI 競爭進入白熱化階段,企業在選擇模型時不僅看重跑分,更關注在實際生產環境中的執行力。
事實查核能力面臨穩定性挑戰
基準測試的侷限性在事實查核測試中尤為明顯。在內部的查核測試中,Gemini 3.1 Pro 的表現顯著遜於 Claude Opus 4.6 或 GPT-5.2,僅能驗證約四分之一的陳述內容,其準確度甚至低於 Gemini 3 Pro。這提醒開發者與企業用戶,雖然模型在科學推理與編碼上有所突破,但在資訊準確性要求極高的場景下,仍需建立專屬的評測標準,以確保 AI 輸出的內容符合真實情況。
