研究指 LLM 模型 Benchmark 存在重大缺陷 無法反映真實能力
一項新的國際研究指出,大型語言模型 (LLM) Benchmark 存在重大問題,顯示大多數目前的評估方法存在嚴重缺陷。研究人員審查了來自頂級 AI 會議的 445 篇基準測試論文後發現,幾乎所有基準測試都存在根本性的方法論問題。 定義不明與人工任務 研究發現,基準測試的定義往往模糊不清或存在爭議。雖然 78% 的基準測試定義了其測量內容,但其中近一半的定義模糊或具爭議性。諸如「推理」、「對齊」和「安全」等關鍵術語常未被定義,導致結論不可靠。此外,41% 的基準測試使用人工任務,其中 29% 完全依賴這類任務。只有約 10% 的測試使用實際反映模型應用方式的真實世界任務。 採樣不良與資料重複…