Google DeepMind 開發 Vibe Checker　以人類標準評估 AI 程式碼品質

一項由 Google DeepMind 和數所美國大學進行的新研究指出，現有的 AI 生成程式碼基準測試，往往未能符合開發人員實際看重的價值。傳統上，評估程式碼品質只著重於功能正確性，即程式碼是否能運行，卻忽略了風格、文件和錯誤處理等許多非功能性要求。

為了解決這個不足，研究人員引入了全新的「Vibe Checker」系統，該系統除了檢查功能外，還測量程式碼遵循詳細指令的程度。研究人員發現，結合功能正確性和指令遵循這兩項標準，能產生與人類偏好更為一致的評估結果。

重點文章

VeriCode 定義真實世界程式碼品質

現行廣泛使用的基準測試主要專注於 pass@k 指標，即檢查程式碼是否通過單元測試。這種方法忽略了開發人員關心的許多非功能性要求。為此，研究人員建立了 VeriCode，這是一套包含 30 個可驗證程式碼指令的分類法，涵蓋編碼風格、邏輯模式、文檔註釋、錯誤處理和函式庫約束等五大類。VeriCode 基於 Python linter Ruff 的 800 多條規則精煉而成，每個指令都配備了確定性的驗證器，可輸出簡單的通過或失敗結果。研究人員強調，VeriCode 的靈活性在於可透過調整參數，從 30 個基本規則中產生數百種不同的變體。

Vibe Checker 擴展基準測試覆蓋範圍

團隊利用 VeriCode 開發了 Vibe Checker 測試平台，並將現有基準測試 BigCodeBench 擴展為 BigVibeBench（1,140 個真實世界程式設計任務），同時將 LiveCodeBench 擴展為 LiveVibeBench（1,055 個演算法任務）。研究人員測試了來自 10 個模型系列的 31 個領先大型語言模型。結果顯示，額外增加指令會顯著降低所有模型的 pass@1 比率，例如當加入五項指令時，平均 pass@1 分別在 BigVibeBench 和 LiveVibeBench 上下降 5.85% 和 6.61%。同時遵循多項指令對先進的模型來說仍具挑戰性，成功率通常在三項或更多指令時跌破 50%。

對 AI 訓練的影響

透過與 LMArena 超過 80 萬條人類評分數據進行比對，研究發現功能正確性與指令遵循的結合，比單獨測量任一指標，更能準確預測人類的選擇。這項研究強調指令遵循是程式碼評估中一個關鍵但常被忽略的環節。這對模型訓練有直接的後果，因為目前 pass@k 是 RLVR（使用可驗證獎勵的強化學習）中的主要獎勵標準，限制了程式碼品質的定義。VeriCode 提供了一種可擴展且可驗證的方式來擴大 AI 模型學習的範圍，進而改善 AI 訓練。此外，哪種特點最重要取決於情境：對於日常程式設計，遵循指令是高階模型的關鍵區分因素；而對於競爭性的演算法問題，功能正確性則更為重要。

Google DeepMind 開發 Vibe Checker 以人類標準評估 AI 程式碼品質

重點文章

VeriCode 定義真實世界程式碼品質

Vibe Checker 擴展基準測試覆蓋範圍

對 AI 訓練的影響

相關文章

Google DeepMind 開發 Vibe Checker　以人類標準評估 AI 程式碼品質