GPT-5.2 在 OpenAI 全新科學基準測試中奪冠
OpenAI 近期發佈了名為 FrontierScience 的全新基準測試,旨在評估 AI 模型在奧林匹克競賽與博士級研究任務中的表現。隨著 GPT-5.2 在現有測試中達到 92% 的準確率,OpenAI 認為現有的科學基準測試已逐漸飽和,因此需要更具挑戰性的評估工具。該測試涵蓋物理、化學及生物學,專注於解決需要深度邏輯推理的複雜科學問題。 測試題目由頂尖專家與獎牌得主設計 FrontierScience 測試分為奧林匹克組與研究組,共包含 160 個專業問題。奧林匹克組題目由 42 位曾在國際競賽中獲得…