AI 玩《超級瑪利歐》誰最強？Claude 3.7 稱霸 GPT-4o 慘敗

加州大學聖地亞哥分校的 Hao AI Lab 近日掀起一場科技熱潮，將先進的 AI 技術丟進經典遊戲《超級瑪利歐兄弟》的戰場。結果令人驚嘆：Anthropic 的 Claude 3.7 以壓倒性優勢奪冠，Claude 3.5 緊追在後，而 Google 的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o 卻意外落後。這場別開生面的 AI 競技不僅展現了人工智慧在遊戲中的潛力，也暴露了不同模型在即時決策上的差距。

重點文章

AI 如何挑戰經典遊戲

Hao AI Lab 開發了一套名為 GamingAgent 的框架，將 AI 模型與《超級瑪利歐兄弟》的模擬器無縫整合，讓 AI 接管瑪利歐的控制權。這個框架會提供基本指令，例如「若障礙物或敵人靠近，向左移動或跳躍躲避」，並將遊戲畫面截圖傳送給 AI。接著，AI 必須生成 Python 代碼，實時操控瑪利歐的動作。雖然這不是 1985 年原版遊戲的完整重現，但 Hao 表示，這種設計迫使 AI 學習如何規劃複雜動作並制定策略，宛如人類玩家般應對挑戰。

Claude 3.7 為何技壓群雄

在這場競技中，Anthropic 的 Claude 3.7 展現了驚豔的表現，成為當之無愧的冠軍，其次是 Claude 3.5。相比之下，Google 的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o 顯得力不從心。特別令人意外的是，OpenAI 的 o1 等推理模型雖然在傳統基準測試中表現優異，但在這場即時遊戲中卻頻頻失利。研究人員解釋，這類模型需要數秒時間分析並決定行動，而在《超級瑪利歐兄弟》中，分秒必爭的時機掌控至關重要，一秒的延遲可能導致瑪利歐跳躍失敗或墜落。

遊戲測試的爭議與反思

遊戲作為 AI 能力的試金石已有數十年歷史，但專家們對其評估價值看法不一。與現實世界相比，遊戲環境相對簡單且抽象，還能提供近乎無限的訓練數據，這讓一些人質疑遊戲表現是否能真正反映 AI 的技術進步。

OpenAI 的研究先驅 Andrej Karpathy 最近在 X 平台上直言，當前的 AI 評估正面臨「評估危機」。他坦言：「我真的不知道現在該看哪些指標，也不知道這些模型到底有多強。」這場 AI 遊戲競技或許炫目，但其意義仍待商榷。

AI 與遊戲的未來展望

儘管爭議不斷，AI 在遊戲中的應用無疑為技術發展開啟了新篇章。Hao AI Lab 的研究不僅揭示了 AI 在即時決策與策略規劃上的潛力，也為模型評估提供了新思路。隨著技術持續進化，未來我們或許能見證 AI 在更複雜的遊戲，甚至現實世界的任務中大放異彩。這場瑪利歐大戰只是起點，AI 的極限還遠未到達。