99国产精品久久久久久久成人,国产真实高潮太爽了,色婷婷婷丁香亚洲综合,欧美性做爰片k8,亚洲一区自拍高清亚洲精品

MiniMax-M1 登場,MiniMax 再次證明自己是一家模型驅(qū)動的 AI 公司

摘要

推理模型極致的性能與性價比,這次 MiniMax 都要。

好飯不怕晚,MiniMax 終于把這款金字塔尖的推理模型拿出來了。

在將 MoE 和 Lightning Attention(閃電注意力)的激進(jìn)架構(gòu)變革引入基礎(chǔ)模型底層,轉(zhuǎn)化為全新的 MiniMax-01 系列模型的 5 個月后,大模型公司 MiniMax 終于更進(jìn)一步,捧出了醞釀許久的自研文本推理模型 MiniMax-M1,這也是全球首個開源、大規(guī)模實現(xiàn)混合注意力的推理模型。

推理模型已成為新的大模型技術(shù)浪潮,拿出一款強勁的自研推理模型,是近半年里國內(nèi)第一陣營的大模型公司保持自己技術(shù)身位最直接的目標(biāo)。

 

01

金字塔尖的文本推理模型

 

作為推理模型,MiniMax-M1 在長上下文理解能力上,是目前包括所有閉源和開源模型在內(nèi),能力全球前二的模型 ,且在 訓(xùn)練和推理成本上極高的性價比 。

M1 仍然延續(xù)著 MoE 架構(gòu),而在注意力機制上和強化學(xué)習(xí)算法上的創(chuàng)新讓 M1 鮮明的區(qū)別于其他推理模型。模型總參數(shù)達(dá)到 4560 億參數(shù),原生支持 100 萬 token 的上下文長度輸入,以及目前所有模型中最長的 80k token 的輸出長度。

在上下文能力的評測基準(zhǔn) OpenAI-MRCR (128k/1M) 以及 LongBench-v2 中,M1 的表現(xiàn)遠(yuǎn)超包括 DeepSeek-R1-0528 和 Qwen3-235B 在內(nèi)的所有開源模型,甚至超越 OpenAI o3 和 Claude 4 Opus,僅小幅落后 SOTA 的 Gemini 2.5 Pro。

除了在長上下文能力上的強勢,M1 所展現(xiàn)出的在智能體工具使用(Agentic Tool Use)維度上的能力上限甚至更加讓人期待。從評測基準(zhǔn) TAU-Bench (airline) 中的表現(xiàn)來看,目前 M1 已經(jīng)是市面上在 Agentic Tool Use 方面能力最強的模型。

技術(shù)報告中對于 M1 的概述是,這個新的開源模型已是與 DeepSeek-R1、Qwen3-235B 并列的世界頂尖開源推理模型,這一結(jié)論是在參與了業(yè)內(nèi)主流的 17 個評測基準(zhǔn)之后得出的。在處理復(fù)雜場景時長上下文、智能體工具使用能力上的長板足夠亮眼,M1 在更通用的模型性能上也已經(jīng)跨入頂尖行列。

此外需要特意說明的是,M1 系列模型中的兩個模型中,MiniMax-M1-40K 模型是 MiniMax-M1-80K 模型在訓(xùn)練時的中間階段。而在測評基準(zhǔn)所呈現(xiàn)的總體表現(xiàn)中,MiniMax-M1-80k 在多數(shù)基準(zhǔn)上持續(xù)優(yōu)于 MiniMax-M1-40k,這也驗證了上下文窗口長度帶來了模型整體性能的顯著提升,而非僅僅意味著支持更長的輸入。

 

02

從架構(gòu)到算法,更徹底的「雙線創(chuàng)新」

 

與市面上主流的推理模型相比,M1 在底層架構(gòu)和算法層上都有所創(chuàng)新。

在底層架構(gòu)層面,M1 是目前唯一一個用線性注意力機制「大改」傳統(tǒng) Transformer 架構(gòu),從而大規(guī)模實現(xiàn)混合注意力的 MoE 推理模型;在算法層面,M1 提出了新的強化學(xué)習(xí)算法 CISPO。更徹底的雙線創(chuàng)新提高了 M1 的訓(xùn)練效率,而訓(xùn)練成本的下降也非??捎^。

為解放 Transformer 架構(gòu)中核心的注意力機制 Softmax Attention 在計算資源消耗方面的局限性,M1 系列模型在注意力機制的架構(gòu)設(shè)計方面相比傳統(tǒng)架構(gòu)的推理做了更大膽的嘗試——采用混合注意力機制 Lightning Attention——來代替標(biāo)準(zhǔn) Transformer 中使用的傳統(tǒng) Softmax Attention。

獨特的注意力層設(shè)計讓 M1 在推理時具有顯著效率優(yōu)勢,天然有利于強化學(xué)習(xí)的高效擴(kuò)展,但走到混合架構(gòu)大規(guī)模強化學(xué)習(xí)的無人區(qū),MiniMax 顯然也會遇到新架構(gòu)帶來的挑戰(zhàn)。

比如在混合架構(gòu)的初步零強化學(xué)習(xí)(zero-RL)實驗中,團(tuán)隊發(fā)現(xiàn)傳統(tǒng)的 PPO/GRPO 算法會意外的嚴(yán)重?fù)p害訓(xùn)練性能。具體來說,與反思行為相關(guān)的關(guān)鍵 token——例如表示轉(zhuǎn)折的 however、wait——這些低概率 token 對穩(wěn)定熵和促進(jìn)可擴(kuò)展 RL 至關(guān)重要,但卻容易在策略更新時被裁剪,難以保證這些 token 的梯度貢獻(xiàn),導(dǎo)致難以促進(jìn)長 CoT 推理行為。此問題在混合架構(gòu)模型中尤為突出,阻礙了強化學(xué)習(xí)的規(guī)模擴(kuò)展。

為此,M1 在算法層面提出了新的強化學(xué)習(xí)算法 CISPO,意在明確避免丟棄任何 token(即使更新幅度大),同時將熵維持在合理范圍以確保穩(wěn)定探索。

在 zero-RL 設(shè)置下,MiniMax 團(tuán)隊在數(shù)學(xué)推理數(shù)據(jù)集上訓(xùn)練 Qwen2.5-32B-base,對比 CISPO、 字節(jié)跳動提出的 DAPO 以及 DeepSeek 提出的 GRPO 算法在 AIME 2024 上的表現(xiàn)。相同步數(shù)下 CISPO 顯著優(yōu)于 DAPO 和 GRPO;其訓(xùn)練效率更高,僅需 DAPO 50% 的步數(shù)即可達(dá)到同等性能。

底層架構(gòu)上對于線性注意力機制的引入,以及算法層圍繞 CISPO 所形成的高效 RL 框架,最終讓 M1 的強化學(xué)習(xí)訓(xùn)練變得十分高效,進(jìn)而取得了訓(xùn)練成本的大幅下降。

與模型一同發(fā)布的技術(shù)報告中顯示,在生成長度為 10 萬 Token 時,M1 的計算量僅為 Deepseek R1 的 25%,而整個 M1 的完整強化學(xué)習(xí)訓(xùn)練能在 512 張 H800 GPU 上僅用 3 周完成,以目前的 GPU 租賃價格計算,成本僅為 53.47 萬美元。

MiniMax 官方也發(fā)布了幾個 demo,我們可以從中看到 M1 究竟能做到什么。

比如最經(jīng)典的用貪吃蛇游戲測試 coding 能力的測試玩法,但這次 M1 展示的是用一句自然語言生成一個更復(fù)雜的迷宮游戲。

Prompt 是這樣的: 創(chuàng)建一個迷宮生成器和尋路可視化工具。隨機生成一個迷宮,并逐步可視化 A* 算法的求解過程。使用畫布和動畫,使其具有視覺吸引力。

或者讓 M1 來幫你從 0 到 1 搭建一個能夠測試打字速度的網(wǎng)頁:

demo 里可以清晰看到,M1 在生成的網(wǎng)頁中思路清晰的設(shè)置了代表打字速度的 WPM(words per minute)和準(zhǔn)確度的 Accuracy 兩個指標(biāo),并且體貼的讓上方文字隨著你的輸入進(jìn)程而同步變色。

又或者,用戶可以直接讓 M1 做一個可拖拽的便簽墻。

這些 demo 都在指向一些通用 agent 中產(chǎn)品化 feature 的可能性。長上下文理解、智能體這些在模型能力產(chǎn)品化過程中的核心能力,恰好是 M1 模型的強勢所在。這符合 MiniMax 最早以產(chǎn)品起勢的路線,而這家公司近來在基礎(chǔ)模型層面持續(xù)的激進(jìn)探索,也以 M1 的出現(xiàn)為節(jié)點,在當(dāng)下大模型公司們技術(shù)突破普遍降速的時候顯示出后勁。

 

03

從 MoE 到 Linear,再到 MiniMax-M1

 

M1 的出現(xiàn),背后是一條 MiniMax 從傳統(tǒng)的稠密模型與 Transformer 架構(gòu),轉(zhuǎn)向 MoE 與線性注意力機制的草蛇灰線。在 MiniMax 決定引入 MoE 與線性注意力機制的時候,在當(dāng)時幾乎都沒有什么可以參考的對象。

Mistral AI 在 2023 年底用開源的模型 Mistral 8??7B 擊敗了當(dāng)時最優(yōu)秀的開源模型之一,700 億參數(shù)的 Llama 2。2023 年夏天,MiniMax 已經(jīng)在準(zhǔn)備從稠密模型轉(zhuǎn)向 MoE,投入了當(dāng)時公司 80% 的算力與研發(fā)資源,在 Mistral 8??7B 發(fā)布的一個月后,上線了國內(nèi)首個 MoE 大模型 abab 6,并且由于這是個過于新的架構(gòu),MiniMax 為 MoE 自研更適配的訓(xùn)練和推理框架。

MoE 架構(gòu)

M1 的混合架構(gòu)的特征,則開始于今年年初 MiniMax-Text-01 模型里線性注意力(Linear Attention)混合架構(gòu)的引入。

MiniMax 開始投入 Linear Attention 是從 2024 年 4 月開始的,那時尚沒有模型在千億級別的參數(shù)規(guī)模層面挑戰(zhàn)傳統(tǒng)的 Transformer 架構(gòu)。這使得 MiniMax 需要對分布式訓(xùn)練和推理框架進(jìn)行徹底的重新設(shè)計來適配,使得模型能夠在大規(guī)模 GPU 集群上高效運行,這才有了今年 1 月的 MiniMax-Text-01,這也是第一個依賴線性注意力機制大規(guī)模部署的模型。

可以說,MiniMax-Text-01 是 MiniMax 在線性注意力這件事上,為整個行業(yè)從小規(guī)??尚械墓沧R,到 Scale up 的可行做了一次驗證。而推理模型 M1,本質(zhì)上又是一次基于 MiniMax-Text-01 的 scale up 和架構(gòu)創(chuàng)新。

MiniMax 也公開了一部分 M1 基于 MiniMax-Text-01 訓(xùn)練的細(xì)節(jié)。

團(tuán)隊以 MiniMax-Text-01 為基座,實施 7.5 萬億 token 的定向增強預(yù)訓(xùn)練,將 STEM(科學(xué)/技術(shù)/工程/數(shù)學(xué))、編程代碼與復(fù)雜推理三類核心領(lǐng)域的數(shù)據(jù)權(quán)重提升至總語料 70%。隨后通過監(jiān)督微調(diào)階段注入鏈?zhǔn)剿伎迹–oT)機制,系統(tǒng)性構(gòu)建模型的分步推理能力,為強化學(xué)習(xí)奠定能力基礎(chǔ)。

最終這種激進(jìn)式的創(chuàng)新得到了積極的驗證,M1 是目前全球最先抵達(dá) 80k 上下文輸出的推理模型,同時在長上下文,軟件工程和 Agent 工具使用方面體現(xiàn)出了優(yōu)勢。

此前星野和 Talkie 在商業(yè)化上的優(yōu)異表現(xiàn),讓 MiniMax 早早成為一家可以自己獨立行走的大模型公司,也讓外界賦予了這家公司一個「產(chǎn)品驅(qū)動」這樣過于籠統(tǒng)的標(biāo)簽。這一定程度上忽視了 MiniMax 在模型層面上相當(dāng)強悍的研發(fā)能力。

值得注意的是,MiniMax 的官方公告透露,M1 系列模型同時也拉開了為期五天的 MiniMaxWeek 的序幕,未來五天,MiniMax 會圍繞文本、語音和視覺等多模態(tài)模型對外公布更多的技術(shù)進(jìn)展。

與此前 MoE 的 Abab 6 模型剛出現(xiàn)時類似,此次發(fā)布的混合注意力機制的 M1 在底層架構(gòu)層面仍然是一個「非共識」的推理模型,但也正是因為這些屢次探入模型底層架構(gòu)「非共識」地帶所帶來的技術(shù)創(chuàng)新,一直在印證 MiniMax 終究是一家「模型驅(qū)動」的 AI 公司。

而這早該成為一種共識。

最新文章

極客公園

用極客視角,追蹤你不可錯過的科技圈.

極客之選

新鮮、有趣的硬件產(chǎn)品,第一時間為你呈現(xiàn)。

張鵬科技商業(yè)觀察

聊科技,談商業(yè)。