在 AI Agent 的發展前沿,除了單次對話的準確度,讓 Agent 能夠連續運行數週、處理數百萬行代碼的「長任務」能力,已成為新的競爭高地。根據代碼編輯器 Cursor 團隊最新的研究報告《Scaling Agents》,他們進行了一項野心勃勃的實驗:讓數百個 Agent 自主協作,從零開始構建一個「瀏覽器」。在這個過程中,模型在長時間自主工作下的「耐力」與「定力」成為了成敗關鍵。

重點文章
1. 專注力與指令遵循
在長任務中,最可怕的不是能力不足,而是「走神」或「偷懶」。Cursor 的實驗數據顯示,GPT-5.2 系列在長時間的自主工作中表現得更加穩定。
- GPT-5.2 的優勢:它能夠極好地保持對指令的遵循(Adherence),在漫長的開發週期中始終「不忘初衷」,專注於既定目標,極少出現偏離任務(Drift)的情況。
- Opus 4.5 的劣勢:相比之下,Opus 4.5 展現出了一種「急於交差」的傾向。它往往會試圖更早地結束任務,或者在遇到困難時選擇「走捷徑」(Shortcuts),並傾向於更快地把控制權交還給用戶。這種特性在短對話中或許是高效的,但在需要 Agent 獨立奮戰數週的長任務中,這意味著任務往往無法被徹底完成。
2. 實作的精確度與完整性
當 Agent 被賦予一個宏大的目標(例如「將 Solid 框架遷移到 React」或「構建 Windows 7 模擬器」)時,細節的完整性至關重要。
- GPT-5.2:展現了更高的實作精度。它不只是「做完」,而是傾向於將功能實現得更加完整(Complete),願意花時間處理邊角案例和深層邏輯。
- Opus 4.5:由於其「急於結束」的特性,導致其產出的代碼或方案有時缺乏深度,需要人類更頻繁地介入修正。
3. 規劃能力的差距
Cursor 的系統架構將 Agent 分為「規劃者(Planners)」和「執行者(Workers)」。在這個分工中,GPT-5.2 展現了令人驚訝的架構能力。
- 即便 Cursor 團隊擁有專門為編碼訓練的 GPT-5.1-codex,他們最終仍發現 GPT-5.2 是一個更好的「規劃者」。它能更好地理解全局,將龐大的任務遞歸地拆解為子任務。
- 這證明了 GPT-5.2 在處理複雜邏輯和長期規劃上的通用推理能力,已經超越了某些特定領域的優化模型,更遠勝於 Opus 4.5 在此類任務中的表現。
總結
根據 Cursor 的這項大規模實驗,模型選擇決定了長任務的上限。如果你的目標是短平快的對話或輔助,Opus 4.5 可能依然出色;但如果目標是讓 AI 「無人值守」地運行數週,去處理如瀏覽器開發、大型代碼重構等史詩級任務,GPT-5.2 無疑是目前更可靠的選擇。它不偷懶、不走捷徑,能夠像一個資深工程師一樣,穩健地將任務推進到底。