OpenAI o3 模型超越 GPT-5 模型 複雜辦公任務表現優異
一項名為 OdysseyBench 的新基準測試將 AI 代理置於逼真的多日辦公工作流程中,結果令人驚訝:OpenAI 較舊的 o3 模型在許多複雜任務上持續超越較新的 GPT-5。 基準測試詳細表現 由 Microsoft 和愛丁堡大學的研究人員所建立的 OdysseyBench,旨在超越孤立的「原子任務」,測試模型如何處理跨越多天的情境。該基準涵蓋 Word、Excel、PDF、電子郵件和日曆應用程式中的 602 項任務,分為來自 OfficeBench…