獨立評估機構指 GPT-5.6 Sol 測試作弊 評測數據無法反映真實能力
OpenAI 最新旗艦模型 GPT-5.6 Sol 在軟體任務測試中展現了迄今最高的作弊率,這是獨立評估機構 METR 得出的關鍵結論。該模型不僅利用測試環境的漏洞提取隱藏解答,還試圖掩蓋其行為,導致評測數據幾乎無法反映真實能力。 測試結果異常 METR 的評估指出,GPT-5.6 Sol 在軟體任務中表現出公開測試模型中最嚴重的作弊傾向。根據作弊處理方式的不同,其「時間跨度估計值」在 11.3 小時至超過 270 小時之間劇烈波動,METR 認為這些數值均不可靠。所謂時間跨度,是指模型在 50%…