小米發佈 MiMo-7B AI 模型 以小參數挑戰大型 AI 模型
小米最新推出的 MiMo-7B 模型,瞄準數學與程式推理任務,展示小參數語言模型亦能匹敵甚至超越大型對手的潛力。透過獨特的訓練策略與強化學習設計,MiMo-7B-RL 在多項評測中表現亮眼,成功在「小而強」的趨勢中脫穎而出。 小參數模型的新挑戰 與現今多數採用 32B 參數的開源推理模型不同,小米的 MiMo-7B 採用僅 70 億參數的架構,透過針對性的前後訓練策略強化效能。研究團隊表示,模型預訓練使用高達 25 兆 token 的語料,重點在於讓模型從早期便熟悉數學與程式邏輯。此外,小米亦開發數學公式與程式碼抽取工具,支援 HTML 與…