清華大學與上海交通大學的一項新研究,已在世界領先的機器學習會議 NeurIPS 上獲得最高榮譽,指出可驗證獎勵強化學習 (RLVR) 雖能提升大型語言模型 (LLMs) 的效率,卻未能賦予其新的推理能力。這項發現引發了研究人員對於基準測試解讀以及 AI 真正推理能力衡量的爭論。

重點文章
RLVR 機制與效率限制
RLVR 主要用於訓練推理模型,處理數學、程式設計與視覺推理等具有可驗證結果的任務。它不依賴人類回饋,而是使用正確計算或通過的程式碼測試等自動訊號作為獎勵標準。研究表明,RLVR 透過將反應集中在少數高獎勵的解決路徑上,減少了輸出多樣性,從而提高了單次嘗試成功的機會 (pass@1)。然而,這種專注也限制了模型探索替代方案的能力。正如研究負責人 Yang Yue 指出:「RLVR 不像先前所認為的那麼強大——它無法讓模型解決基礎模型無法解決的問題。」
「Pass@k」爭議與專家觀點
部分研究人員認為,當模型在「pass@k」基準測試中獲得數百甚至數千次嘗試機會,僅需一次正確答案就算成功時,高通過率可能無法衡量真正的推理能力,而只是表明模型偶然發現正確答案。研究作者承認,在僅有少數可能答案的任務上,「pass@1024」可能受運氣影響,但他們強調,對於猜測不足以解決的更艱難程式設計和數學測試,相同模式依然存在。OpenAI 執行長 Sam Altman 似乎也意識到這些限制,他認為透過預訓練將推理能力與「更大的模型」結合,而非單純強化,才是推進推理能力與獲得「真正新科學知識」的關鍵。AI 研究員 Nathan Lambert 則指出,RL 雖然減少了樣本的熵值並提升了 pass@1 的效率,但該研究的訓練資料範圍過於狹窄,未能展示 RL 訓練的根本限制。
研究範疇與未來展望
作者們澄清,這篇論文並非聲稱強化學習永遠無法改進推理或超越基礎模型的能力。Yang Yue 強調,該研究專注於從零開始訓練的 RL 模型,並未包含思維鏈微調或知識蒸餾等增強技術。作者和 Yue 都同意,額外步驟,例如以監督式微調進行預熱啟動,能改善推理模型的結果。研究團隊計劃在未來研究中引入明確的隨機基準線,以更好地控制偶然猜測的影響,並將進行進一步實驗,探索 RL 是否以及如何能真正增強 LLM 的推理能力,同時指出結果可能會隨著模型和資料集的擴大而有所轉變。