Google DeepMind 開發 Vibe Checker 以人類標準評估 AI 程式碼品質

Code Evaluation Tool GPT 4o 1200x800 1

一項由 Google DeepMind 和數所美國大學進行的新研究指出,現有的 AI 生成程式碼基準測試,往往未能符合開發人員實際看重的價值。傳統上,評估程式碼品質只著重於功能正確性,即程式碼是否能運行,卻忽略了風格、文件和錯誤處理等許多非功能性要求。

為了解決這個不足,研究人員引入了全新的「Vibe Checker」系統,該系統除了檢查功能外,還測量程式碼遵循詳細指令的程度。研究人員發現,結合功能正確性和指令遵循這兩項標準,能產生與人類偏好更為一致的評估結果。

VeriCode 定義真實世界程式碼品質

現行廣泛使用的基準測試主要專注於 pass@k 指標,即檢查程式碼是否通過單元測試。這種方法忽略了開發人員關心的許多非功能性要求。為此,研究人員建立了 VeriCode,這是一套包含 30 個可驗證程式碼指令的分類法,涵蓋編碼風格、邏輯模式、文檔註釋、錯誤處理和函式庫約束等五大類。VeriCode 基於 Python linter Ruff 的 800 多條規則精煉而成,每個指令都配備了確定性的驗證器,可輸出簡單的通過或失敗結果。研究人員強調,VeriCode 的靈活性在於可透過調整參數,從 30 個基本規則中產生數百種不同的變體。

Vibe Checker 擴展基準測試覆蓋範圍

團隊利用 VeriCode 開發了 Vibe Checker 測試平台,並將現有基準測試 BigCodeBench 擴展為 BigVibeBench(1,140 個真實世界程式設計任務),同時將 LiveCodeBench 擴展為 LiveVibeBench(1,055 個演算法任務)。研究人員測試了來自 10 個模型系列的 31 個領先大型語言模型。結果顯示,額外增加指令會顯著降低所有模型的 pass@1 比率,例如當加入五項指令時,平均 pass@1 分別在 BigVibeBench 和 LiveVibeBench 上下降 5.85% 和 6.61%。同時遵循多項指令對先進的模型來說仍具挑戰性,成功率通常在三項或更多指令時跌破 50%。

對 AI 訓練的影響

透過與 LMArena 超過 80 萬條人類評分數據進行比對,研究發現功能正確性與指令遵循的結合,比單獨測量任一指標,更能準確預測人類的選擇。這項研究強調指令遵循是程式碼評估中一個關鍵但常被忽略的環節。這對模型訓練有直接的後果,因為目前 pass@k 是 RLVR(使用可驗證獎勵的強化學習)中的主要獎勵標準,限制了程式碼品質的定義。VeriCode 提供了一種可擴展且可驗證的方式來擴大 AI 模型學習的範圍,進而改善 AI 訓練。此外,哪種特點最重要取決於情境:對於日常程式設計,遵循指令是高階模型的關鍵區分因素;而對於競爭性的演算法問題,功能正確性則更為重要。

google

加入本站 WhatsApp 頻道最新限免情報立即知。

全新本站官方《限時情報王》 iOS 版 登場。限免已完結?不想錯過重大限免應用,可到本站追蹤 Telegram 頻道FacebookIG