為什麼在長任務中 GPT-5.2 完勝 Opus 4.5？來自 Cursor 以數十億 Token 實戰的結果

在 AI Agent 的發展前沿，除了單次對話的準確度，讓 Agent 能夠連續運行數週、處理數百萬行代碼的「長任務」能力，已成為新的競爭高地。根據代碼編輯器 Cursor 團隊最新的研究報告《Scaling Agents》，他們進行了一項野心勃勃的實驗：讓數百個 Agent 自主協作，從零開始構建一個「瀏覽器」。在這個過程中，模型在長時間自主工作下的「耐力」與「定力」成為了成敗關鍵。

重點文章

1. 專注力與指令遵循

在長任務中，最可怕的不是能力不足，而是「走神」或「偷懶」。Cursor 的實驗數據顯示，GPT-5.2 系列在長時間的自主工作中表現得更加穩定。

GPT-5.2 的優勢：它能夠極好地保持對指令的遵循（Adherence），在漫長的開發週期中始終「不忘初衷」，專注於既定目標，極少出現偏離任務（Drift）的情況。
Opus 4.5 的劣勢：相比之下，Opus 4.5 展現出了一種「急於交差」的傾向。它往往會試圖更早地結束任務，或者在遇到困難時選擇「走捷徑」（Shortcuts），並傾向於更快地把控制權交還給用戶。這種特性在短對話中或許是高效的，但在需要 Agent 獨立奮戰數週的長任務中，這意味著任務往往無法被徹底完成。

2. 實作的精確度與完整性

當 Agent 被賦予一個宏大的目標（例如「將 Solid 框架遷移到 React」或「構建 Windows 7 模擬器」）時，細節的完整性至關重要。

GPT-5.2：展現了更高的實作精度。它不只是「做完」，而是傾向於將功能實現得更加完整（Complete），願意花時間處理邊角案例和深層邏輯。
Opus 4.5：由於其「急於結束」的特性，導致其產出的代碼或方案有時缺乏深度，需要人類更頻繁地介入修正。

3. 規劃能力的差距

Cursor 的系統架構將 Agent 分為「規劃者（Planners）」和「執行者（Workers）」。在這個分工中，GPT-5.2 展現了令人驚訝的架構能力。

即便 Cursor 團隊擁有專門為編碼訓練的 GPT-5.1-codex，他們最終仍發現 GPT-5.2 是一個更好的「規劃者」。它能更好地理解全局，將龐大的任務遞歸地拆解為子任務。
這證明了 GPT-5.2 在處理複雜邏輯和長期規劃上的通用推理能力，已經超越了某些特定領域的優化模型，更遠勝於 Opus 4.5 在此類任務中的表現。

總結

根據 Cursor 的這項大規模實驗，模型選擇決定了長任務的上限。如果你的目標是短平快的對話或輔助，Opus 4.5 可能依然出色；但如果目標是讓 AI 「無人值守」地運行數週，去處理如瀏覽器開發、大型代碼重構等史詩級任務，GPT-5.2 無疑是目前更可靠的選擇。它不偷懶、不走捷徑，能夠像一個資深工程師一樣，穩健地將任務推進到底。