Deepseek 延遲發表 AI 模型　傳因華為晶片技術問題

Deepseek 最新的 AI 模型發表遭遇重大延遲，據報導這是因為在使用華為昇騰晶片進行訓練時，遇到了持續的技術問題。

重點文章

華為晶片訓練挑戰

《金融時報》報導，中國監管機構在 Deepseek 於 1 月發表 R1 模型後，曾鼓勵其將訓練晶片從 Nvidia 的領先產品轉向華為的昇騰處理器來用於 R2 模型。然而，這項計畫遭遇了巨大阻礙，因為 Deepseek 在使用昇騰晶片訓練時，遇到了持續的技術問題。即使有華為的工程師現場協助，團隊仍未能成功完成訓練作業。加州大學柏克萊分校的 AI 研究員 Ritwik Gupta 向《金融時報》表示，華為的晶片可能正在經歷一些「成長的陣痛」，但他相信該公司迎頭趕上只是「時間」問題。

轉而仰賴 Nvidia 並面對技術差距

這些問題迫使 Deepseek 回頭使用 Nvidia 晶片進行運算密集型訓練。因此造成的延遲，讓該模型無法在 5 月如期發表，並使競爭對手搶佔先機。作為權宜之計，Deepseek 現在使用 Nvidia 硬體來訓練模型，但依賴華為昇騰晶片來執行要求較低的推論任務。《金融時報》引述業內消息人士指出，中國晶片在穩定性、連接性和軟體品質方面，仍落後於 Nvidia。

V3.1 模型與未來國產晶片

儘管面臨這些挑戰，Deepseek 仍發表了其 V3 模型的更新版本 V3.1。這個新模型使用了名為 UE8M0 FP8 的特殊資料類型進行訓練。Deepseek 在微信貼文中表示，這種資料類型是專為下一代國產晶片設計，預計很快就會發表。這暗示了更強大的中國加速器可能即將問世。華為目前的旗艦晶片昇騰 910C 並不原生支援 FP8 資料類型，這表示從先前使用的 E4M3 格式轉變，更多是出於對未來硬體的相容性考慮，而非效率提升。V3.1 以先前的 V3 檢查點為基礎，並加入了混合推理模式。

消息來源

Deepseek 延遲發表 AI 模型 傳因華為晶片技術問題

重點文章

華為晶片訓練挑戰

轉而仰賴 Nvidia 並面對技術差距

V3.1 模型與未來國產晶片

相關文章

Deepseek 延遲發表 AI 模型　傳因華為晶片技術問題