Meta 首席 AI 科學家 Yann LeCun 在與 DeepMind 研究員 Adam Brown 的辯論中表示,大型語言模型(LLM)代表了通往類人智能的死路。LeCun 認為,根本問題在於這些模型進行預測的方式。
重點文章
離散預測的缺陷
LeCun 批評 LLM 的技術基礎,也就是離散 tokens 的自迴歸預測。這種方法適用於語言,因為字典包含有限數量的單詞。然而,LeCun 認為,當應用於現實世界(例如影片數據)時,這種方法會失敗。現實是連續且高維度的,而不是離散的。他解釋說:「你無法真正表示未來可能發生的所有事情的分布,因為它基本上是一個無限可能的列表。」過去 20 年來,將文本預測原理轉移到影片像素層級的嘗試都失敗了。對於精確的像素預測來說,世界太過混亂和嘈雜,無法理解物理或因果關係。
新架構的需求
LeCun 指出,與生物大腦相比,目前 AI 系統的效率極低。LLM 可能接受過大約 30 兆個單詞的訓練,這個文本量人類需要 50 萬年才能讀完。相比之下,一個四歲的孩子處理的文本較少,但視覺數據量巨大。兒童透過視神經(每秒傳輸約 20 MB)在其短暫的一生中處理大約 10^14 bytes 的數據,這相當於用於訓練最大 LLM 的數據量。然而,儘管孩子在幾個月內就能學會直觀的物理、重力和物體恆存性,但 LLM 卻難以完成基本的物理任務。LeCun 說:「我們一直沒有可以清理餐桌或裝滿洗碗機的機器人。」
客觀驅動設計
LeCun 認為,解決方案不在於更大的語言模型,而在於像 JEPA 這樣學習抽象表示的新架構。這些系統不應預測每個細節(像素),而應學習抽象地模擬世界狀態,並在該表示空間內進行預測,類似於人類在沒有提前計算每個肌肉運動的情況下進行計劃的方式。
LeCun 還強烈警告不要壟斷 AI 開發。由於未來的每一次數位互動都將由 AI 介導,因此多樣化的開放系統對於民主至關重要。他認為:「我們不能只讓少數幾家位於美國西海岸或中國的公司推出一些專有系統。」。
