GPT-5.2 在 OpenAI 全新科學基準測試中奪冠

OpenAI 近期發佈了名為 FrontierScience 的全新基準測試，旨在評估 AI 模型在奧林匹克競賽與博士級研究任務中的表現。隨著 GPT-5.2 在現有測試中達到 92% 的準確率，OpenAI 認為現有的科學基準測試已逐漸飽和，因此需要更具挑戰性的評估工具。該測試涵蓋物理、化學及生物學，專注於解決需要深度邏輯推理的複雜科學問題。

重點文章

測試題目由頂尖專家與獎牌得主設計

FrontierScience 測試分為奧林匹克組與研究組，共包含 160 個專業問題。奧林匹克組題目由 42 位曾在國際競賽中獲得 108 枚獎牌的得主與教練編寫，所有答案皆具備唯一的數值或代數表達式。研究組則由 45 位專家設計，題目涉及量子力學與光化學等專業領域，每項任務平均需花費 3 至 5 小時解決，並由 GPT-5 負責進行高強度的自動化評分。

模型性能隨推理強度提升

測試結果顯示，GPT-5.2 在奧林匹克組獲得 77% 的分數，在研究組則獲得 25% 的分數，兩項成績均優於其他模型。Gemini 3 Pro 以 76% 的成績緊隨其後，而 Claude Opus 4.5 與 Grok 4 則分別獲得 71% 與 66.2% 的成績。數據指出，模型性能與運算時間成正比，GPT-5.2 在最高推理強度下的表現明顯優於低強度模式，顯示增加算力能顯著提升 AI 解決專業問題的能力。

AI 助力科學研究進入新階段

OpenAI 計劃在 2028 年前開發出能獨立進行科學發現的自主研究代理。目前已有 Steve Hsu 與 Terence Tao 等科學家利用 AI 協助處理複雜證明與實驗設計，展現了人機協作的潛力。然而，專家也警告若過度依賴模型，可能會產生大量看似合理但錯誤的研究結果。OpenAI 表示，雖然 AI 在化學等學科表現出色，但在處理邏輯錯誤與冷門概念方面仍有進步空間。

消息來源

GPT-5.2 在 OpenAI 全新科學基準測試中奪冠

重點文章

測試題目由頂尖專家與獎牌得主設計

模型性能隨推理強度提升

AI 助力科學研究進入新階段

相關文章