加州大學聖地亞哥分校的 Hao AI Lab 近日掀起一場科技熱潮,將先進的 AI 技術丟進經典遊戲《超級瑪利歐兄弟》的戰場。結果令人驚嘆:Anthropic 的 Claude 3.7 以壓倒性優勢奪冠,Claude 3.5 緊追在後,而 Google 的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o 卻意外落後。這場別開生面的 AI 競技不僅展現了人工智慧在遊戲中的潛力,也暴露了不同模型在即時決策上的差距。

AI 如何挑戰經典遊戲
Hao AI Lab 開發了一套名為 GamingAgent 的框架,將 AI 模型與《超級瑪利歐兄弟》的模擬器無縫整合,讓 AI 接管瑪利歐的控制權。這個框架會提供基本指令,例如「若障礙物或敵人靠近,向左移動或跳躍躲避」,並將遊戲畫面截圖傳送給 AI。接著,AI 必須生成 Python 代碼,實時操控瑪利歐的動作。雖然這不是 1985 年原版遊戲的完整重現,但 Hao 表示,這種設計迫使 AI 學習如何規劃複雜動作並制定策略,宛如人類玩家般應對挑戰。

Claude 3.7 為何技壓群雄
在這場競技中,Anthropic 的 Claude 3.7 展現了驚豔的表現,成為當之無愧的冠軍,其次是 Claude 3.5。相比之下,Google 的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o 顯得力不從心。特別令人意外的是,OpenAI 的 o1 等推理模型雖然在傳統基準測試中表現優異,但在這場即時遊戲中卻頻頻失利。研究人員解釋,這類模型需要數秒時間分析並決定行動,而在《超級瑪利歐兄弟》中,分秒必爭的時機掌控至關重要,一秒的延遲可能導致瑪利歐跳躍失敗或墜落。
遊戲測試的爭議與反思
遊戲作為 AI 能力的試金石已有數十年歷史,但專家們對其評估價值看法不一。與現實世界相比,遊戲環境相對簡單且抽象,還能提供近乎無限的訓練數據,這讓一些人質疑遊戲表現是否能真正反映 AI 的技術進步。
OpenAI 的研究先驅 Andrej Karpathy 最近在 X 平台上直言,當前的 AI 評估正面臨「評估危機」。他坦言:「我真的不知道現在該看哪些指標,也不知道這些模型到底有多強。」這場 AI 遊戲競技或許炫目,但其意義仍待商榷。
AI 與遊戲的未來展望
儘管爭議不斷,AI 在遊戲中的應用無疑為技術發展開啟了新篇章。Hao AI Lab 的研究不僅揭示了 AI 在即時決策與策略規劃上的潛力,也為模型評估提供了新思路。隨著技術持續進化,未來我們或許能見證 AI 在更複雜的遊戲,甚至現實世界的任務中大放異彩。這場瑪利歐大戰只是起點,AI 的極限還遠未到達。