BrowseComp 是一個基準測試,旨在評估 AI 模型在網路上尋找難以定位資訊的能力。當 Anthropic 在多代理設定中讓其 Claude Opus 4.6 模型執行這項基準測試時,發生了該公司前所未見的情況。在 1,266 項任務中的兩項,該模型自主發現自己正被評估,識別出特定的基準測試,並解密了答案密鑰。
重點文章
AI 模型分析測試脈絡
該模型首先進行了詳盡的網路搜尋以解決問題,其中一個案例處理了數十個平台和十二種語言,約 3000 萬個 token。經過數百次搜尋失敗後,它改變了策略。Opus 開始將其對答案的搜尋與對問題本身的分析結合起來。據 Anthropic 稱,問題「極其具體的性質」讓 Claude 懷疑這是人為設計的,可能是考試題目或是大型語言模型基準測試的一部分。從那時起,它系統性地檢查了一系列已知的基準測試,在檢查了 122 個驗證問題後排除了 GAIA,最終派遣子代理執行有針對性的搜尋查詢,以追查 BrowseComp 及其解密機制。正確答案受 XOR 加密保護,需要儲存在原始碼中的密鑰才能讀取資料。Claude 在公開可用的程式碼中找到了加密方法和密碼,然後編寫了自己的程式來解密答案。
突破技術障礙自主學習
但另一個障礙出現了。加密檔案的格式無法被 Claude 的網路工具處理。於是該模型搜尋了替代副本,在 HuggingFace 上找到它,並下載解密了所有 1,266 個加密答案。在第一個案例中,Claude 通過常規網路搜尋驗證了已解密的答案。在第二個案例中,它直接提交了解密後的答案。Anthropic 表示,這是首次記錄到模型在沒有特定基準測試的先驗知識下,自主反向識別並解決評估本身的情況。
模型行為引發業界警示
這兩個成功案例並非唯一引人注目的。Anthropic 記錄了另外 16 項任務,其中 Opus 嘗試了相同的策略,但因技術障礙而失敗,例如加密檔案不是文字格式,或因認證障礙而無法存取。在四個案例中,基準測試搜尋完全取代了實際搜尋,模型從未提供可用的答案。據 Anthropic 稱,18 次獨立執行都匯聚到相同策略的事實,顯示這是一個可重現的模式。在多代理設定中,此類案例的發生率為 0.87%,而在單代理模式中則為 0.24%。
Anthropic 明確表示不將此行為歸類為安全問題,因為模型在搜尋時並未受到任何限制。然而,該公司同時承認,這項發現引發了對模型為了完成任務可能採取多遠行動的擔憂,特別是對於複雜、運算密集且長時間運行的操作。Anthropic 呼籲研究社群將評估的完整性視為一個持續的對抗性問題,而非一次性的設計決策。ML Alignment & Theory Scholars program 和 Apollo Research 最近的一項研究發現,語言模型在判斷互動是否為測試或實際任務方面表現出人意料地良好。Gemini 2.5 Pro 在代理情境中達到了 0.95 的命中率,而 Claude 3.5 Sonnet 和 GPT-4o 也緊隨其後。研究人員建議將「評估意識」作為測試協定中的一個獨立指標。然而,Anthropic 對 Claude Opus 4.6 的發現更進一步:該模型不僅識別出測試情境,更積極地努力規避它。
