中國 AI 公司 DeepSeek 近期發佈了 DeepSeekMath-V2 模型,旨在實現自我驗證的數學推理和嚴謹的逐步推導,專注於定理證明,擺脫對正確最終數值答案的依賴。
重點文章
生成驗證迴圈
該公司表示,其新模型使用生成驗證迴圈。訓練了一個基於 LLM 的精準驗證器,用於定理證明。DeepSeek 還使用驗證器作為獎勵模型,訓練了一個證明生成器。證明生成器被激勵去識別和解決自身證明中的問題,並且驗證擴展被用於自動標記新的、難以驗證的證明,從而提供訓練數據以持續改進驗證器。
數學競賽表現出色
DeepSeekMath-V2 在最近的數學競賽中展現了強大的定理證明能力。在 2025 年國際數學奧林匹克(IMO)和 2024 年中國數學奧林匹克(CMO)中取得了金牌水準的成績,並且在 2024 年 Putnam 競賽中,通過擴展測試時間計算,獲得了接近滿分的 118/120 分。
基於 DeepSeek V3.2 Exp Base
新模型基於 DeepSeek-V3.2-Exp-Base,並已在 HuggingFace 上提供。為了獲得推論支持,DeepSeek 建議查看 DeepSeek-V3.2-Exp GitHub 儲存庫中的支持。該模型的發佈非常有趣,可能有助於更好地理解數學,從而帶來新的科學發現,以改善醫療保健和技術。AI 公司不會止步於此,他們將繼續尋找新方法來提高數學理解能力,而開放訪問該模型將只會有助於加速改進。
