研究指 LLM 模型 Benchmark 存在重大缺陷  無法反映真實能力

Broken Benchmark Chart Sora

一項新的國際研究指出,大型語言模型 (LLM) Benchmark 存在重大問題,顯示大多數目前的評估方法存在嚴重缺陷。研究人員審查了來自頂級 AI 會議的 445 篇基準測試論文後發現,幾乎所有基準測試都存在根本性的方法論問題。

定義不明與人工任務

研究發現,基準測試的定義往往模糊不清或存在爭議。雖然 78% 的基準測試定義了其測量內容,但其中近一半的定義模糊或具爭議性。諸如「推理」、「對齊」和「安全」等關鍵術語常未被定義,導致結論不可靠。此外,41% 的基準測試使用人工任務,其中 29% 完全依賴這類任務。只有約 10% 的測試使用實際反映模型應用方式的真實世界任務。

採樣不良與資料重複

採樣是目前 LLM 基準測試的另一個主要弱點。約 39% 的測試依賴便利採樣,其中 12% 完全採用此方式。資料重複使用也相當普遍。大約 38% 的基準測試重複使用來自人工測試或現有來源的資料,許多測試更是嚴重依賴其他基準測試的資料集。這種做法可能會扭曲結果。大多數基準測試也缺乏嚴謹的統計分析。超過 80% 的測試使用精確匹配分數,但只有 16% 應用統計檢定來比較模型。

改善之道與評估挑戰

研究團隊為未來的發展指明了方向:精確定義每個基準測試的測量內容,並設定清晰具體的界線。資料集的選擇應出於刻意,而非僅基於方便。強大的統計方法和不確定性估計對於有意義的模型比較至關重要。儘管存在缺陷,基準測試仍是 AI 研究的基礎。然而,隨著大型語言模型日益複雜且相關利害關係提升,弱點或誤導性基準測試的風險也隨之增加。若缺乏更嚴格的標準和完全的透明度,將無法區分真正的進步與僅為通過測試而優化的結果。

與 AI 相關的圖片

加入本站 WhatsApp 頻道最新限免情報立即知。

全新本站官方《限時情報王》 iOS 版 登場。限免已完結?不想錯過重大限免應用,可到本站追蹤 Telegram 頻道FacebookIG