6 月 17 日消息,MiniMax 稀宇科技宣布將連續(xù)五天發(fā)布重要更新。今天第一彈是開(kāi)源首個(gè)推理模型 MiniMax-M1。
根據(jù)官方介紹,MiniMax-M1 是世界上第一個(gè)開(kāi)源的大規(guī)模混合架構(gòu)的推理模型。MiniMax 表示:M1 在面向生產(chǎn)力的復(fù)雜場(chǎng)景中能力是開(kāi)源模型中的最好一檔,超過(guò)國(guó)內(nèi)的閉源模型,接近海外的最領(lǐng)先模型,同時(shí)又有業(yè)內(nèi)最高的性?xún)r(jià)比。
官方博客還提到,基于兩大技術(shù)創(chuàng)新,MiniMax-M1 訓(xùn)練過(guò)程高效得“超出預(yù)期”,只用了 3 周時(shí)間、512 塊 H800 GPU 就完成強(qiáng)化學(xué)習(xí)訓(xùn)練階段,算力租賃成本僅 53.47 萬(wàn)美元(IT之家注:現(xiàn)匯率約合 384.1 萬(wàn)元人民幣),相比一開(kāi)始的預(yù)期直接降低了一個(gè)數(shù)量級(jí)。
M1 有一個(gè)顯著的優(yōu)勢(shì)是支持目前業(yè)內(nèi)最高的 100 萬(wàn)上下文的輸入,跟閉源模型里面的 Google Gemini 2.5 Pro 一樣,是 DeepSeek R1 的 8 倍,以及業(yè)內(nèi)最長(zhǎng)的 8 萬(wàn) Token 的推理輸出。
這主要得益于我們獨(dú)創(chuàng)的以閃電注意力機(jī)制為主的混合架構(gòu),從而在計(jì)算長(zhǎng)的上下文輸入以及深度推理的時(shí)候顯著高效。例如,在用 8 萬(wàn) Token 深度推理的時(shí)候,只需要使用 DeepSeek R1 約 30% 的算力。這個(gè)特性使得我們?cè)谟?xùn)練和推理的時(shí)候都有很大的算力效率優(yōu)勢(shì)。除此之外,我們提出了更快的強(qiáng)化學(xué)習(xí)算法 CISPO,通過(guò)裁剪重要性采樣權(quán)重(而非傳統(tǒng) token 更新)提升強(qiáng)化學(xué)習(xí)效率。在 AIME 的實(shí)驗(yàn)中,我們發(fā)現(xiàn)這比包括字節(jié)近期提出的 DAPO 等強(qiáng)化學(xué)習(xí)算法收斂性能快了一倍,顯著的優(yōu)于 DeepSeek 早期使用的 GRPO。
得益于上述兩個(gè)技術(shù)創(chuàng)新,我們最終強(qiáng)化訓(xùn)練過(guò)程非常高效,超出預(yù)期。實(shí)際上整個(gè)強(qiáng)化學(xué)習(xí)階段只用到 512 塊 H800 三周的時(shí)間,租賃成本只有 53.47 萬(wàn)美金。這比一開(kāi)始的預(yù)期少了一個(gè)數(shù)量級(jí)。我們?cè)跇I(yè)內(nèi)主流的 17 個(gè)評(píng)測(cè)集上詳細(xì)評(píng)測(cè)了 M1,具體的結(jié)果如下:
我們發(fā)現(xiàn)在軟件工程、長(zhǎng)上下文與工具使用等面向生產(chǎn)力的復(fù)雜場(chǎng)景中,我們的模型具備顯著優(yōu)勢(shì)。
MiniMax-M1-40k 和 MiniMax-M1-80k 在 SWE-bench 驗(yàn)證基準(zhǔn)上分別取得 55.6% 和 56.0% 的優(yōu)異成績(jī),這一成績(jī)略遜于 DeepSeek-R1-0528 的 57.6%,但顯著超越其他開(kāi)源權(quán)重模型。
依托其百萬(wàn)級(jí)上下文窗口,M1 系列在長(zhǎng)上下文理解任務(wù)中表現(xiàn)卓越,不僅全面超越所有開(kāi)源權(quán)重模型,甚至超越 OpenAI o3 和 Claude 4 Opus,全球排名第二,僅以微弱差距落后于 Gemini 2.5 Pro。
在代理工具使用場(chǎng)景(TAU-bench)中,MiniMax-M1-40k 同樣領(lǐng)跑所有開(kāi)源權(quán)重模型,并戰(zhàn)勝 Gemini-2.5 Pro。
值得注意的是,MiniMax-M1-80k 在大多數(shù)基準(zhǔn)測(cè)試中始終優(yōu)于 MiniMax-M1-40k,這充分驗(yàn)證了擴(kuò)展測(cè)試時(shí)計(jì)算資源的有效性。詳細(xì)的技術(shù)報(bào)告,完整的模型權(quán)重可以在我們的官方 Hugging Face 和 GitHub 賬號(hào)下訪(fǎng)問(wèn)。vLLM 和 Transformer 兩個(gè)開(kāi)源項(xiàng)目提供了各自的推理部署支持,我們也正在和 SGLang 合作推進(jìn)部署支持。因?yàn)橄鄬?duì)高效的訓(xùn)練和推理算力使用,我們?cè)?MiniMax App 和 Web 上都保持不限量免費(fèi)使用,并以業(yè)內(nèi)最低的價(jià)格在官網(wǎng)提供 API。在 0-32k 的輸入長(zhǎng)度的時(shí)候,輸入 0.8 元 / 百萬(wàn) token,輸出 8 元 / 百萬(wàn) token;在 32k-128k 的輸入長(zhǎng)度的時(shí)候,輸入 1.2 元 / 百萬(wàn) token,輸出 16 元 / 百萬(wàn) token;在最長(zhǎng)的 128k-1M 的輸入長(zhǎng)度的時(shí)候,輸入 2.4 元 / 百萬(wàn) token,輸出 24 元 / 百萬(wàn) token。前面兩種模式都比 DeepSeek-R1 性?xún)r(jià)比更高,后面一種模式 DeepSeek 模型不支持。除了 M1 之外,接下來(lái)連續(xù)四個(gè)工作日,我們還準(zhǔn)備了一些更新帶給大家,敬請(qǐng)期待。