GPT-5.2 在 OpenAI 全新科學基準測試中奪冠

openai browser 1 1

OpenAI 近期發佈了名為 FrontierScience 的全新基準測試,旨在評估 AI 模型在奧林匹克競賽與博士級研究任務中的表現。隨著 GPT-5.2 在現有測試中達到 92% 的準確率,OpenAI 認為現有的科學基準測試已逐漸飽和,因此需要更具挑戰性的評估工具。該測試涵蓋物理、化學及生物學,專注於解決需要深度邏輯推理的複雜科學問題。

測試題目由頂尖專家與獎牌得主設計

FrontierScience 測試分為奧林匹克組與研究組,共包含 160 個專業問題。奧林匹克組題目由 42 位曾在國際競賽中獲得 108 枚獎牌的得主與教練編寫,所有答案皆具備唯一的數值或代數表達式。研究組則由 45 位專家設計,題目涉及量子力學與光化學等專業領域,每項任務平均需花費 3 至 5 小時解決,並由 GPT-5 負責進行高強度的自動化評分。

模型性能隨推理強度提升

測試結果顯示,GPT-5.2 在奧林匹克組獲得 77% 的分數,在研究組則獲得 25% 的分數,兩項成績均優於其他模型。Gemini 3 Pro 以 76% 的成績緊隨其後,而 Claude Opus 4.5 與 Grok 4 則分別獲得 71% 與 66.2% 的成績。數據指出,模型性能與運算時間成正比,GPT-5.2 在最高推理強度下的表現明顯優於低強度模式,顯示增加算力能顯著提升 AI 解決專業問題的能力。

AI 助力科學研究進入新階段

OpenAI 計劃在 2028 年前開發出能獨立進行科學發現的自主研究代理。目前已有 Steve Hsu 與 Terence Tao 等科學家利用 AI 協助處理複雜證明與實驗設計,展現了人機協作的潛力。然而,專家也警告若過度依賴模型,可能會產生大量看似合理但錯誤的研究結果。OpenAI 表示,雖然 AI 在化學等學科表現出色,但在處理邏輯錯誤與冷門概念方面仍有進步空間。

消息來源

openai

加入本站 WhatsApp 頻道最新限免情報立即知。

全新本站官方《限時情報王》 iOS 版 登場。限免已完結?不想錯過重大限免應用,可到本站追蹤 Telegram 頻道FacebookIG