Deepseek 延遲發表 AI 模型 傳因華為晶片技術問題

deepseek

Deepseek 最新的 AI 模型發表遭遇重大延遲,據報導這是因為在使用華為昇騰晶片進行訓練時,遇到了持續的技術問題。

deepseek

華為晶片訓練挑戰

《金融時報》報導,中國監管機構在 Deepseek 於 1 月發表 R1 模型後,曾鼓勵其將訓練晶片從 Nvidia 的領先產品轉向華為的昇騰處理器來用於 R2 模型。然而,這項計畫遭遇了巨大阻礙,因為 Deepseek 在使用昇騰晶片訓練時,遇到了持續的技術問題。即使有華為的工程師現場協助,團隊仍未能成功完成訓練作業。加州大學柏克萊分校的 AI 研究員 Ritwik Gupta 向《金融時報》表示,華為的晶片可能正在經歷一些「成長的陣痛」,但他相信該公司迎頭趕上只是「時間」問題。

轉而仰賴 Nvidia 並面對技術差距

這些問題迫使 Deepseek 回頭使用 Nvidia 晶片進行運算密集型訓練。因此造成的延遲,讓該模型無法在 5 月如期發表,並使競爭對手搶佔先機。作為權宜之計,Deepseek 現在使用 Nvidia 硬體來訓練模型,但依賴華為昇騰晶片來執行要求較低的推論任務。《金融時報》引述業內消息人士指出,中國晶片在穩定性、連接性和軟體品質方面,仍落後於 Nvidia。

V3.1 模型與未來國產晶片

儘管面臨這些挑戰,Deepseek 仍發表了其 V3 模型的更新版本 V3.1。這個新模型使用了名為 UE8M0 FP8 的特殊資料類型進行訓練。Deepseek 在微信貼文中表示,這種資料類型是專為下一代國產晶片設計,預計很快就會發表。這暗示了更強大的中國加速器可能即將問世。華為目前的旗艦晶片昇騰 910C 並不原生支援 FP8 資料類型,這表示從先前使用的 E4M3 格式轉變,更多是出於對未來硬體的相容性考慮,而非效率提升。V3.1 以先前的 V3 檢查點為基礎,並加入了混合推理模式。

消息來源

加入本站 WhatsApp 頻道最新限免情報立即知。

全新本站官方《限時情報王》 iOS 版 登場。限免已完結?不想錯過重大限免應用,可到本站追蹤 Telegram 頻道FacebookIG