最強(qiáng)開源多模態(tài)模型來了,還順帶拉來了國(guó)產(chǎn) GPU 的半壁江山。
今天下午,階躍星辰在 WAIC 2025 開幕前夕發(fā)布新一代基礎(chǔ)大模型 Step 3,并宣布將在 7 月 31 日面向全球企業(yè)和開發(fā)者開源。

階躍星辰創(chuàng)始人姜大昕博士
階躍 Step 3 的兩個(gè)關(guān)鍵詞是:多模態(tài)推理能力領(lǐng)先開源陣營(yíng)+推理效率在國(guó)產(chǎn)芯片上提升至行業(yè)頂尖的 300%。
發(fā)布會(huì)現(xiàn)場(chǎng),階躍還宣布成立「模態(tài)生態(tài)創(chuàng)新聯(lián)盟」,聯(lián)合多家國(guó)產(chǎn)芯片頭部廠商,共同打通從模型到芯片、終端和工業(yè)應(yīng)用的全鏈路。
一句話概括 Step 3 的定位:不只是「更強(qiáng)」,而是「更綜合」。
而這場(chǎng)重磅發(fā)布的邏輯,其實(shí)早有跡可循。早在 5 月份,階躍創(chuàng)始人姜大昕就曾在接受 AppSo 采訪時(shí)表示;
AI 行業(yè)的技術(shù)發(fā)展非常快,依然處于非常陡峭的區(qū)間。階躍不想在這個(gè)過程中放棄主流增長(zhǎng)或前進(jìn)的趨勢(shì),所以我們還是會(huì)堅(jiān)持做基礎(chǔ)模型的研發(fā)。
多模態(tài)與高效:兼顧能力與落地
Step 3 是一款主打推理能力和推理效率的旗艦?zāi)P彤a(chǎn)品,無論是文本推理、代碼、數(shù)學(xué)能力,以及最重要的多模態(tài)能力,Step 3 都可以勝任,它在多個(gè)榜單上的測(cè)試結(jié)果都非常出色。
在 SimpleVQA 榜單上,Step 3 的得分超過了國(guó)內(nèi)外所有開源的同類模型,成為了最強(qiáng)的開源多模態(tài)推理大模型。

階躍 Step 3 在語言榜單、多模態(tài)等榜單上的成績(jī)
而在評(píng)估推理效率上,階躍 Step 3 真正做到了在模型足夠好的情況下,推理效率高,應(yīng)用成本低。
Step 3 從設(shè)計(jì)伊始就結(jié)合多種硬件優(yōu)化,在主流國(guó)產(chǎn)芯片上的推理效率,提升至行業(yè)翹楚 DeepSeek 推理效率的 300%;在英偉達(dá) H800 平臺(tái)上,對(duì)比 DeepSeek,也提升 70%,顯著降低模型推理的成本壓力。

與 DeepSeek 模型對(duì)比,左邊是在國(guó)產(chǎn)芯片上的測(cè)試,右邊是 NVIDIA H系列芯片的測(cè)試
黃金法則:「多、開、好、省」
在大模型「卷各種榜單」的今天,階躍關(guān)注的不僅僅是模型智能的上限,更加關(guān)注模型是否能做落地應(yīng)用,能否實(shí)現(xiàn)價(jià)值。
階躍 Step 3 在保留基礎(chǔ)模型強(qiáng)大推理能力的同時(shí),更強(qiáng)調(diào)落地適配。強(qiáng)調(diào)在「低算力」環(huán)境下也能保持較強(qiáng)的響應(yīng)速度和處理能力。
姜大昕進(jìn)一步歸納了評(píng)估模型價(jià)值的四個(gè)維度:多模態(tài)(多)、開源(開)、能力強(qiáng)(好)、成本低(省)。而這四點(diǎn)正是 Step 3 發(fā)力的核心。
「多」,意味著模型的多模態(tài)能力,而不是針對(duì)某一項(xiàng)數(shù)學(xué)能力、代碼能力。姜大昕在現(xiàn)場(chǎng)也舉例說我們?cè)诤芏鄨?chǎng)合,需要的并不是一個(gè)能夠拿奧數(shù)金牌的模型,而是能夠讀懂一張紙的含義、能夠語音和我們交流。
「開」指的是開源,此次發(fā)布的階躍 Step 3,也將在 7 月 31 日向全世界開源。
「好」則是代表模型的能力要足夠強(qiáng),而「省」則是在模型能力足夠好的前提下,盡可能降低成本。

階躍星辰把 Step 3 放在一個(gè)二維坐標(biāo)系里,能力和是否開源。國(guó)際頭部模型集中在能力強(qiáng)但不開源區(qū);而許多開源模型缺少多模支持或能力不足。Step 3 填補(bǔ)的正是 開源、多模態(tài)、推理頂尖 的象限。
這個(gè)「黃金法則」也正說明,階躍 Step 3 不僅「更聰明」,而且更能「跑得起」「用得起」。
面面俱到:從讀圖識(shí)字到復(fù)雜分賬
現(xiàn)場(chǎng)也展示了幾個(gè)階躍 Step 3 多模態(tài)能力的演示案例,
首先是色盲測(cè)試圖片識(shí)別,Step 3 快速讀出隱藏字母「Step 3」,甚至在推理思維鏈里自嘲「巧合」。
菜單反光識(shí)別:在高反光環(huán)境下仍能讀取菜名和價(jià)格,并精準(zhǔn)回答如「無骨鴨掌 58 元」。
群聊+超市小票聯(lián)合推理題:從兩張圖中推斷每個(gè)人的分?jǐn)偨痤~,模型生成結(jié)果與人工計(jì)算極其接近,同時(shí)也感受到了因四舍五入導(dǎo)致的 0.03 元誤差。
這類視覺+語言+推理的聯(lián)合能力,更加符合現(xiàn)實(shí)使用場(chǎng)景的需求。
模型矩陣:階躍的下一個(gè)目標(biāo)
而除了視覺的多模態(tài)理解推理,階躍在 Step 3 這個(gè)旗艦?zāi)P椭猓€構(gòu)建了一套完整的,包含各種能力的模型全家桶;包括語音模型、音樂模型、圖像生成、圖像編輯和視頻生成等等。

階躍在現(xiàn)場(chǎng)還展示了他們的語音大模型,階躍 Step-Audio 2,它能夠生成各種方言、各種語種、各種角色的聲音類型,同時(shí)有連續(xù)對(duì)話、被打斷靈敏處理等能力。
目前,所有這些模型目前都可以透過下載階躍AI 或者前往階躍官網(wǎng)體驗(yàn)。

不僅是模型發(fā)布,階躍星辰在 WAIC 2025 還宣布與上海國(guó)有資本投資有限公司開展深度戰(zhàn)略合作,將在資本對(duì)接、生態(tài)建設(shè)、業(yè)務(wù)協(xié)同等方面協(xié)作。
同時(shí)還披露上海國(guó)投將參與階躍星辰新一輪融資,階躍也宣布全年收入要向 10 億人民幣沖刺。

階躍星辰這次還強(qiáng)調(diào)了一個(gè)核心戰(zhàn)略方向,芯片適配能力和生態(tài)構(gòu)建。
Step 3 此次在國(guó)產(chǎn)芯片的推理效率上取得了突破性的成績(jī),且對(duì)所有芯片友好。發(fā)布會(huì)上,階躍宣布成立「模態(tài)生態(tài)創(chuàng)新聯(lián)盟」,拉來了國(guó)產(chǎn) GPU 的半壁江山。
包括華為昇騰、燧原科技、壁仞科技、沐曦、無聞芯穹、天數(shù)智芯等在內(nèi)的 10 余家國(guó)產(chǎn) GPU 頭部廠商共同參與。芯片廠商和模型廠商將通過聯(lián)合技術(shù)創(chuàng)新的模式,讓大模型和算力雙向?qū)崿F(xiàn)價(jià)值最大化,加速推動(dòng) AI 真正被各行各業(yè)用起來。
目前,華為昇騰芯片已首先實(shí)現(xiàn) Step 3 的搭載和運(yùn)行。沐曦、天數(shù)智芯和燧原等也已初步實(shí)現(xiàn)運(yùn)行 Step 3。其它聯(lián)盟廠商的適配工作正在開展。

該聯(lián)盟首批成員包括華為昇騰、沐曦、壁仞科技、燧原科技、天數(shù)智芯、無問芯穹、寒武紀(jì)、摩爾線程、硅基流動(dòng)等。
過去一年,在很多國(guó)產(chǎn)模型努力追 GPT 系列模型能力曲線時(shí),階躍星辰似乎選擇了另一條路徑。就像姜大昕在發(fā)布會(huì)上提到的木桶效應(yīng)一樣,不一定做到方方面面最強(qiáng),但要先做到「到處能跑」。
Step 3 的發(fā)布,除了是能力極限的炫技,更是對(duì)「可用性」一次重申。
大模型如果要真正進(jìn)入生產(chǎn)和生活,就不能只在超算中心跑得飛快、在論文里得分漂亮,而是要能在真實(shí)世界里快速響應(yīng)、低成本部署、長(zhǎng)時(shí)間穩(wěn)定運(yùn)行。
階躍一直強(qiáng)調(diào)要做基礎(chǔ)模型,我想之所以叫「基礎(chǔ)」,是因?yàn)樗MP驼娴哪芟窕A(chǔ)設(shè)施一樣,可靠、普及、負(fù)擔(dān)得起。