打開(kāi)字節(jié)、阿里們的多模態(tài)能力地圖,每塊寶藏都標(biāo)著"語(yǔ)音”。
近期,就在阿里通義千問(wèn)團(tuán)隊(duì)發(fā)布翻譯模型Qwen-MT的同一天,字節(jié)跳動(dòng)旗下的火山引擎正式對(duì)外發(fā)布了豆包·同聲傳譯模型 Seed LiveInterpret 2.0,后者的模型在多個(gè)Benchmark測(cè)試中都獲得了大幅度領(lǐng)先,但其實(shí)該模型的首版發(fā)布已經(jīng)是去年的事了。
時(shí)隔一年,字節(jié)再次將這個(gè)模型端出來(lái),并花大力氣更新?lián)Q代了一次,字節(jié)想做什么?
我們可以把時(shí)間線串聯(lián)起來(lái)看:字節(jié)豆包團(tuán)隊(duì)于 2024 年推出了旗艦語(yǔ)音生成基礎(chǔ)模型 Seed-TTS,今年1月發(fā)布了豆包 Realtime Voice Model(首個(gè)端到端語(yǔ)音理解與生成模型),4月開(kāi)源了中英雙語(yǔ)TTS模型MegaTTS3,1個(gè)月前則發(fā)布了豆包播客語(yǔ)音模型。
作為豆包多模態(tài)能力中的重要一環(huán),字節(jié)將同聲傳譯補(bǔ)足到了語(yǔ)音能力之中。反觀阿里,去年也曾高調(diào)推出了新一代端到端語(yǔ)音翻譯大模型 Gummy,這回在翻譯能力上又進(jìn)一步。如果將視野再打開(kāi),環(huán)顧國(guó)內(nèi)外,我們能看到阿里巴巴、字節(jié)、科大訊飛、Grok、OpenAI、Meta都在向語(yǔ)音類賽道瘋狂投入資源。
吸引一眾AI廠商紛紛加碼語(yǔ)音模型的背后,則是行業(yè)對(duì)新一代“語(yǔ)義交互”方式的競(jìng)爭(zhēng)。
一旦突破“實(shí)時(shí)語(yǔ)音+實(shí)時(shí)翻譯+實(shí)時(shí)輸出”的技術(shù)體驗(yàn)屏障,其將直接打開(kāi)AI產(chǎn)品的商業(yè)化想象空間。
譬如AI硬件。新一代AI硬件浪潮正對(duì)語(yǔ)音翻譯技術(shù)產(chǎn)生著強(qiáng)烈的需求牽引。尤其是國(guó)內(nèi)正在打響的“百鏡大戰(zhàn)”。翻譯模型Qwen-MT亮相兩天后,阿里在WAIC上正式推出了首款A(yù)I眼鏡。字節(jié)也被爆將在年內(nèi)發(fā)布自家的AI眼鏡。
不同于電腦和手機(jī)等終端硬件的文字交互方式,沒(méi)有鍵盤的眼鏡,天然便適合語(yǔ)音交互這一新形式。不過(guò),當(dāng)下阻礙AI眼鏡普及的一大難點(diǎn),也恰恰在語(yǔ)音交互體驗(yàn)的不完備上。
從這個(gè)角度來(lái)說(shuō),字節(jié)和阿里對(duì)語(yǔ)音模型的押注,頗有點(diǎn)給自家AI眼鏡打好前站的意思。
那么,語(yǔ)音類賽道到底正在發(fā)生著什么?豆包同傳2.0表現(xiàn)如何?
讓我們先來(lái)看看這個(gè)產(chǎn)品的實(shí)際能力。
同聲傳譯已經(jīng)是各種圈子內(nèi)的“老需求”了,并不新鮮。不過(guò)此模型,仍然吸引了全網(wǎng)不小的注意。這主要在于大家通過(guò)這次模型的升級(jí),意識(shí)到了其背后的“泛商業(yè)價(jià)值”。
這款語(yǔ)音模型已經(jīng)能夠以極低的延遲、更絲滑的效果,輸出與用戶音色相一致的英語(yǔ)翻譯。一邊接收源語(yǔ)言語(yǔ)音輸入,一邊 0 樣本聲音復(fù)刻用戶聲音,直接輸出目標(biāo)語(yǔ)言的翻譯語(yǔ)音。
我們來(lái)試一試。字節(jié)官方提供了體驗(yàn)地址,登錄該網(wǎng)址后,每日有20次體驗(yàn)同聲翻譯的機(jī)會(huì)。

我們以在WAIC2025上進(jìn)行的AI教父Geoffrey Hinton的演講為例。
該同傳大模型目前僅支持中英間轉(zhuǎn)錄,我們先來(lái)試試中文,Hinton談?wù)摯笳Z(yǔ)言模型的一段中文翻譯:
今天的大語(yǔ)言模型(LLM)可以看作是當(dāng)年我所構(gòu)建的小型語(yǔ)言模型的后繼者,是自 1985 年以來(lái)語(yǔ)言技術(shù)演進(jìn)中的一個(gè)重要里程碑。它們以更長(zhǎng)的詞序列作為輸入,采用更復(fù)雜的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并在特征學(xué)習(xí)中建立了更精妙的交互機(jī)制。
正如我當(dāng)初設(shè)計(jì)的小模型那樣,LLM 的基本原理與人類理解語(yǔ)言的方式本質(zhì)一致:將語(yǔ)言轉(zhuǎn)化為特征表示,并在多個(gè)層次上對(duì)這些特征進(jìn)行精密的整合與重構(gòu)。這正是 LLM 在其各個(gè)神經(jīng)網(wǎng)絡(luò)層中所執(zhí)行的核心任務(wù)。
因此,我們有理由說(shuō),LLM 確實(shí)在某種意義上“理解”了它們所生成的語(yǔ)言。
在這段視頻中,你能非常清晰地聽(tīng)到,該語(yǔ)音模型對(duì)于用戶輸入的自然語(yǔ)言短句的識(shí)別能力非常強(qiáng),也非常迅速。即便只是一個(gè)很短的間隔,模型也能夠準(zhǔn)確識(shí)別到,并根據(jù)這種間隔判斷如何翻譯。
像是下圖,模型會(huì)自動(dòng)根據(jù)語(yǔ)境,而選擇不更改主語(yǔ),在翻譯過(guò)程中,模型會(huì)根據(jù)上下文自動(dòng)判斷是否需要重復(fù)主語(yǔ):

除此之外,當(dāng)我輸入語(yǔ)音的同時(shí),它也在實(shí)時(shí)克隆我的音色,當(dāng)然效果稱不上很好,但也確實(shí)有一些相似度。
我又測(cè)試了一段魯迅語(yǔ)錄,其中可能會(huì)有一些語(yǔ)病,你會(huì)更明顯地發(fā)現(xiàn)該模型在同傳過(guò)程中的延遲非常低。像是“有一份熱,便發(fā)一份光”“無(wú)窮的遠(yuǎn)方,無(wú)數(shù)的人們”中間的簡(jiǎn)短時(shí)間非常的短,幾近于連讀,而模型也依然覺(jué)察出來(lái)了:
我們?cè)賮?lái)試一試Hinton的英文講座,這回我們非常明顯地發(fā)現(xiàn)同傳模型對(duì)于音色的克隆效果大幅下降了,幾乎沒(méi)有相似度。但是在翻譯場(chǎng)景下的表現(xiàn),包括低延遲、準(zhǔn)確度、自然的斷句等等,依然比較好。

目前該模型主要聚焦中英文對(duì)話,這點(diǎn)上與 Meta 的SeamlessStreaming 等跨語(yǔ)種模型相比仍有差距 。Meta 在2023年12月發(fā)布 Seamlessstreaming 時(shí),就已經(jīng)能夠涵蓋近 100 種輸入語(yǔ)言和 36 種語(yǔ)音輸出語(yǔ)言。從"語(yǔ)言覆蓋面"這個(gè)角度,字節(jié)確實(shí)還有很長(zhǎng)的路要走。
字節(jié)同步發(fā)布了基準(zhǔn)測(cè)試成績(jī),Streamlessstreaming仍舊停留在這張表上,不過(guò)SeedLiveInterpret 2.0成績(jī)很不錯(cuò)。中英互譯平均翻譯質(zhì)量的人類評(píng)分達(dá)到 74.8(滿分 100,評(píng)估譯文準(zhǔn)確率)

相比之下,其他大多廠商的語(yǔ)音同傳翻譯產(chǎn)品基本不支持實(shí)時(shí)的語(yǔ)音復(fù)刻,在體驗(yàn)上基本維持在語(yǔ)音輸入文字輸出的交互方式,我們也就不再多進(jìn)行類比。
客觀地說(shuō),體驗(yàn)下來(lái),目前的模型技術(shù)還存在一些明顯的局限。 在不同語(yǔ)言方向上的音色克隆表現(xiàn)差異較大,技術(shù)的一致性還需要改進(jìn)。 對(duì)于特定領(lǐng)域的專業(yè)詞匯,翻譯準(zhǔn)確度還有提升空間。不過(guò),語(yǔ)音復(fù)刻雖然略顯稚嫩,但也確實(shí)帶來(lái)了更有意思的交互體感。
同傳語(yǔ)音模型相對(duì)于單純語(yǔ)音生成來(lái)說(shuō),難度可能已經(jīng)是Next Level了。同傳模型需要同時(shí)做三件事:聽(tīng)懂你說(shuō)的話(語(yǔ)音識(shí)別)、翻譯成另一種語(yǔ)言(機(jī)器翻譯)、再用自然的聲音說(shuō)出來(lái)(語(yǔ)音合成)。
因此,這波字節(jié)語(yǔ)音翻譯模型的升級(jí)并不只是為了做一個(gè)“翻譯軟件”。它的核心價(jià)值在于"語(yǔ)音交互"能力已經(jīng)宣告成熟,翻譯只是其中一個(gè)應(yīng)用場(chǎng)景。
這是關(guān)于“語(yǔ)義交互”方式的競(jìng)爭(zhēng)。
豆包同傳模型2.0的推出,實(shí)際上是字節(jié)跳動(dòng)在AI大模型生態(tài)布局中的重要一步。回顧一下時(shí)間線:早在2024年,豆包就發(fā)布了初代同傳模型,但那時(shí)只能輸出文字翻譯結(jié)果。
當(dāng)然,除了字節(jié)之外,無(wú)論是國(guó)內(nèi)還是國(guó)外,幾乎所有基礎(chǔ)大模型廠商都把目光投向了語(yǔ)音模型這個(gè)賽道。然而,生成語(yǔ)音很簡(jiǎn)單,難的是“實(shí)時(shí)語(yǔ)音+實(shí)時(shí)翻譯+實(shí)時(shí)輸出”,許多大廠都正在攻堅(jiān)。
比如,只談及“純血同傳翻譯”模型的話,大家自然會(huì)把目光轉(zhuǎn)向阿里巴巴。在2024年云棲大會(huì)上,阿里高調(diào)推出了新一代端到端語(yǔ)音翻譯大模型 Gummy,雖然無(wú)法實(shí)時(shí)語(yǔ)音復(fù)刻,但也可實(shí)時(shí)流式生成語(yǔ)音識(shí)別與翻譯結(jié)果。
其在多個(gè)維度中都獲得了SOTA級(jí)別的表現(xiàn),翻譯延遲甚至降到了0.5s以下:


"賣體驗(yàn)"比"賣翻譯功能"要更吸引人。
同傳翻譯模型2.0背后,大家的關(guān)注點(diǎn)更多的還是在于語(yǔ)音類模型背后的潛力,而非垂直翻譯能力,大家的興奮點(diǎn)并不在于它能把中文翻譯成英文有多準(zhǔn)確。
如果,我們繼續(xù)將目光放寬一點(diǎn),會(huì)發(fā)現(xiàn)專攻語(yǔ)音交互模型賽道的選手,已經(jīng)遍布整個(gè)市場(chǎng)了,它們正在從各個(gè)角度撬動(dòng)用戶應(yīng)用場(chǎng)景。
像是最近,在輿論場(chǎng)和資本場(chǎng)拿回一點(diǎn)聲量的“AI六小龍”之一—— MiniMax,也不甘示弱連續(xù)發(fā)布了MiniMax-Speech系列模型,特別是2025年5月推出的 Speech-02 模型,號(hào)稱是"全球第一的TTS語(yǔ)音模型"。
其在社交場(chǎng)上獲得聲量并引起關(guān)注的原因,追其根本,在于它單次輸入支持 200K 字符,支持 30 多種語(yǔ)言,擁有超逼真的語(yǔ)音克隆體驗(yàn)。

OpenAI的高級(jí)語(yǔ)音模式就更不用提了,如果你翻看各種社媒產(chǎn)品,就會(huì)發(fā)現(xiàn)幾乎所有領(lǐng)域的用戶都在抱怨“Plus用戶的語(yǔ)音限額有點(diǎn)少的可憐”,這說(shuō)明低延遲、實(shí)時(shí)語(yǔ)音、擬人性的需求非常高。
只不過(guò),OpenAI做產(chǎn)品確實(shí)有點(diǎn)慢,尚未將手伸向一些明確的應(yīng)用場(chǎng)景,不過(guò)倒是投了一批初創(chuàng)企業(yè)。像是語(yǔ)言學(xué)習(xí)語(yǔ)音交互平臺(tái) Speak,2024 年年底OpenAI曾參與其 7,800 萬(wàn)美元融資,并將自身語(yǔ)音技術(shù)模型融入進(jìn)去,現(xiàn)在這家公司估值已經(jīng)突破 10 億美元了。
Elon Musk也早早布局,他xAI旗下的Grok模型最近也卷入了語(yǔ)音賽道:7月中旬,Grok應(yīng)用新增了"伴侶模式",上線了一位可互動(dòng)的3D虛擬AI少女形象 Ani。這個(gè)虛擬角色可以用甜美的動(dòng)漫嗓音與用戶對(duì)話,在日本網(wǎng)友中迅速走紅,被戲稱為"AI女友"。
Grok對(duì)語(yǔ)音能力的意識(shí)顯然要比其他大廠商超前一點(diǎn),像是ElevenLabs等初創(chuàng)企業(yè)與Grok在腦機(jī)接口上的合作,為漸凍癥患者替換聲音的操作,自然而然為這類模型打了一個(gè)大大的廣告。
多方動(dòng)向背后,說(shuō)明業(yè)界對(duì)于實(shí)時(shí)語(yǔ)音在AI產(chǎn)品商業(yè)化中的價(jià)值形成了共識(shí)。
首先讓我們回顧下AI產(chǎn)品的發(fā)展軌跡,在多模態(tài)交互中,構(gòu)建從“語(yǔ)音到語(yǔ)音”的閉環(huán)體驗(yàn)在過(guò)去兩年就被認(rèn)為是下一個(gè)關(guān)鍵目標(biāo)。過(guò)去的AI產(chǎn)品(無(wú)論是Chatbot還是AI 硬件)更多停留在文字和圖像處理層面,但在人類日常交流中,語(yǔ)音才是最自然、最高效的溝通方式。所以,語(yǔ)音交互能帶給用戶更好更佳更AI的體驗(yàn)過(guò)程,而這正好意味著一片“痛點(diǎn)藍(lán)海”。
各大廠搶攻語(yǔ)音模型,正是為了搶占這一未來(lái)的藍(lán)海市場(chǎng),其第一步就是搶占入口。
相信從過(guò)去一年的“Chatbot”入口界面爭(zhēng)奪戰(zhàn)中,許多基礎(chǔ)模型廠商都悟得了一個(gè)道理:單純文字對(duì)話的用戶體驗(yàn)每上升1分,背后可能是100分的模型能力提升,10000分的算力、算法、架構(gòu)的投入。
因?yàn)檎Z(yǔ)音交互不像搜索引擎那樣存在一個(gè)絕對(duì)的入口,用戶可能從任何一個(gè)點(diǎn)開(kāi)始接觸,然后逐漸習(xí)慣這種交互方式,這背后的商業(yè)價(jià)值可以說(shuō)高到難以想象。
這場(chǎng)語(yǔ)音賽道的集體押注,實(shí)際上是各大廠商對(duì)未來(lái)AI應(yīng)用場(chǎng)景的一次集體下注。
從進(jìn)入2025年以來(lái),AI硬件產(chǎn)品已經(jīng)進(jìn)入“井噴式領(lǐng)域”。各種形態(tài)的智能設(shè)備如雨后春筍般涌現(xiàn)。
從最原初的純剛需來(lái)看,跨國(guó)出海或者是會(huì)議場(chǎng)景是始終繞不過(guò)的一關(guān)。各種翻譯企業(yè)從機(jī)器翻譯、神經(jīng)網(wǎng)絡(luò)翻譯再到AI翻譯,已經(jīng)走過(guò)了一關(guān)又一關(guān),商業(yè)成果進(jìn)展緩慢,蛋糕做大困難。相比之下,如果實(shí)時(shí)語(yǔ)音同傳成熟化,這種體驗(yàn)的商業(yè)價(jià)值是巨大的。
無(wú)論是這些硬需求,還是滿足用戶對(duì)于AI未來(lái)交互體驗(yàn)的“軟需求”,都需要一個(gè)合適的載體 —— AI硬件,或許很多人對(duì)此嗤之以鼻,認(rèn)為其全部是套殼產(chǎn)品。但現(xiàn)實(shí)是,新一代AI硬件浪潮對(duì)語(yǔ)音翻譯技術(shù)產(chǎn)生了強(qiáng)烈的需求牽引。硬件產(chǎn)品非常能夠激發(fā)市場(chǎng)去琢磨一個(gè)市場(chǎng)還存在哪些尚未被發(fā)現(xiàn)的隱秘機(jī)會(huì)。
同時(shí),在國(guó)外各個(gè)主力AI模型都已經(jīng)開(kāi)始開(kāi)發(fā)不同的收費(fèi)模式時(shí),反觀國(guó)內(nèi),除了AI Agent帶來(lái)了較為成體系的價(jià)格結(jié)構(gòu)之外,AI基礎(chǔ)模型廠商幾乎是“一片噤聲”,無(wú)人愿意提及。正如大家常說(shuō)的:“光靠模型就能盈利,那是做夢(mèng)”。
AI也需要一個(gè)載體。
2023年以來(lái),從硅谷初創(chuàng)公司Humane推出的可佩戴顯示設(shè)備 AI Pin,到國(guó)內(nèi)創(chuàng)業(yè)團(tuán)隊(duì)研發(fā)的 Rabbit R1 ,年收入近1億美金的AI錄音硬件 Plaude、TicNote、再到字節(jié)推出的Ola Friend耳機(jī),各種形態(tài)的可穿戴AI助手層出不窮。科大訊飛也推出了主打?qū)崟r(shí)多語(yǔ)種同傳功能的會(huì)議耳機(jī)和翻譯耳機(jī),AI硬件已經(jīng)事實(shí)上成為了各家廠商將AI商業(yè)化的“救命稻草”。

OldFriend 這款勉強(qiáng)被稱為AI硬件的產(chǎn)品,可以通過(guò)喚醒詞 “豆包豆包” 激活其 AI 聊天助手豆包,從而將體驗(yàn)的支撐角色轉(zhuǎn)移給豆包。但是,這種體驗(yàn)缺乏真正的顛覆性使用場(chǎng)景。
既然是AI硬件,還是要從AI下手。
當(dāng)字節(jié)宣布同傳大模型2.0發(fā)布時(shí),同時(shí)提到了該模型將在8月迅速進(jìn)入Old Friend耳機(jī)中,為其補(bǔ)足更多的語(yǔ)音交互能力。我們可以這么理解,語(yǔ)音翻譯模型帶來(lái)的"實(shí)時(shí)語(yǔ)音交互"體驗(yàn),正在成為AI硬件產(chǎn)品吸引用戶的新戰(zhàn)場(chǎng)。
當(dāng)然,在語(yǔ)音這個(gè)大領(lǐng)域內(nèi),還存在其他分支賽道。比如字節(jié)、MiniMax前段時(shí)間都火出圈的AI播客功能,以及專注情感陪伴的語(yǔ)音AI產(chǎn)品。各家AI創(chuàng)業(yè)公司正在瘋狂挖掘語(yǔ)音交互的潛力,大家逐漸發(fā)現(xiàn)了AI產(chǎn)品發(fā)展下半程的"引爆點(diǎn)"——語(yǔ)音交互市場(chǎng)。
此次字節(jié)豆包同傳模型的發(fā)布、官方迅速宣布該模型將立刻接入硬件,以及前段時(shí)間字節(jié)投入大力氣打造的播客模型等等,都在宣告著國(guó)內(nèi)“語(yǔ)音”市場(chǎng)的潛力才剛剛展現(xiàn)。
“搶占下一代AI產(chǎn)品交互入口之前,先把硬件造出來(lái)”是國(guó)內(nèi)普遍信奉的樸素商業(yè)道理。在此之上,AI廠商們?cè)诳吹讲粩嘤谐鮿?chuàng)企業(yè)通過(guò)“較差”或者只是開(kāi)源的AI大模型技術(shù)就已經(jīng)能發(fā)掘出這么多應(yīng)用場(chǎng)景了,肯定會(huì)捫心自問(wèn):我何樂(lè)而不為呢?
尤其是AI實(shí)時(shí)語(yǔ)音交互賽道,尚且沒(méi)有將這項(xiàng)體驗(yàn)完整融合到硬件市場(chǎng)的產(chǎn)品出現(xiàn)。作為擁有AI原生技術(shù)的字節(jié)——這個(gè)大廠的標(biāo)桿之一,開(kāi)始認(rèn)真考慮:語(yǔ)音交互很可能成為下一個(gè)改變?nèi)藱C(jī)交互方式的關(guān)鍵技術(shù)。