7月26日,世界人工智能大會(WAIC)在上海正式拉開帷幕。
在展會現(xiàn)場,具身智能無疑是最備受矚目的行業(yè)。從靈活完成格斗動作的人形機器人,到能精準(zhǔn)執(zhí)行家務(wù)、康復(fù)輔助的服務(wù)型機器人,這些具備物理交互能力的智能體憑借流暢的動作、自然的交互賺足了觀眾眼球。
然而,在這場科技盛宴中,當(dāng)人們沉浸在具身智能帶來的震撼體驗時,人工智能產(chǎn)業(yè)的核心底座——以芯片、板卡、服務(wù)器、計算集群等為核心構(gòu)成的算力基礎(chǔ)設(shè)施,依然是整個行業(yè)繞不開的關(guān)鍵話題。

與往屆大會相比,今年算力基礎(chǔ)設(shè)施展區(qū)呈現(xiàn)出截然不同的風(fēng)貌。
往年展臺上隨處可見的“參數(shù)競賽”已悄然淡去,各廠商送展的芯片和服務(wù)器展品中,很少再有將某項極致性能參數(shù)用醒目字體刻意標(biāo)記出來的情況。
曾經(jīng)被重點標(biāo)注的技術(shù)指標(biāo),如今更多地融入到具體的產(chǎn)業(yè)解決方案中,或是隱藏在真實的應(yīng)用場景演示里。
現(xiàn)場的討論也多是基于“碎片化算力資源統(tǒng)籌”、“低功耗與低成本”與“垂類產(chǎn)品軟硬件整合”這些非常務(wù)實的話題。
全鏈路國產(chǎn)化進行時
在算力基礎(chǔ)設(shè)施的務(wù)實轉(zhuǎn)型浪潮中,“全鏈路國產(chǎn)化”的推進節(jié)奏尤為引人關(guān)注。
過去幾年,全球供應(yīng)鏈波動引發(fā)的芯片斷供風(fēng)險,以及核心技術(shù)“卡脖子”的現(xiàn)實挑戰(zhàn),反復(fù)挑動著國內(nèi)人工智能產(chǎn)業(yè)的神經(jīng)。在全行業(yè)已默契達成“居安思危”共識的背景下,即便部分產(chǎn)品應(yīng)用尚未受到外部限制,國內(nèi)算力基礎(chǔ)設(shè)施廠商也主動將國產(chǎn)化的邊界從單一芯片突破,拓展至從架構(gòu)設(shè)計、軟硬件生態(tài)到產(chǎn)業(yè)落地的全鏈路自主可控。
這種主動出擊的國產(chǎn)化實踐,在本屆 WAIC 的展臺間隨處可見。
從芯片底層架構(gòu)的自主研發(fā),到操作系統(tǒng)、編譯器等軟件工具鏈的國產(chǎn)化適配,再到與本土服務(wù)器廠商、行業(yè)應(yīng)用企業(yè)的深度協(xié)同,一條貫穿“芯片—軟件—整機—場景” 的國產(chǎn)化鏈條正在加速成型。
剛剛提交上市輔導(dǎo)備案的沐曦,算是其中較為典型的代表。
本屆展會上,沐曦首次公開展示了其最新研發(fā)的訓(xùn)推一體GPU曦云C600。據(jù)悉,其采用自研的XCORE 1.5架構(gòu)及指令集,面向云端人工智能訓(xùn)練與推理、通用計算、AI for Science等計算任務(wù),且擁有豐富的標(biāo)量、矢量和張量計算單元,支持多種混合精度計算。

雖然現(xiàn)場并沒有關(guān)于曦云C600的性能參數(shù)介紹,但據(jù)展臺工作人員透露,這枚芯片搭載了當(dāng)前業(yè)界前沿的HBM3e顯存。這一關(guān)鍵配置勢必會大幅提高顯存帶寬,為大模型訓(xùn)練及推理時的海量數(shù)據(jù)吞吐提供強力支撐。
鑒于曦云C600在本月剛剛回片,展會上并未出現(xiàn)基于這枚芯片打造的板卡及服務(wù)器。
而基于上代產(chǎn)品曦云C500系列芯片,沐曦在現(xiàn)場展示了PCIe服務(wù)器、OAM服務(wù)器和光互連服務(wù)器解決方案,這些服務(wù)器基本都實現(xiàn)了“全鏈路國產(chǎn)化”,即從編譯器、驅(qū)動程序,再到卡間互聯(lián)協(xié)議完全自研,或是第三方國內(nèi)合作伙伴打造。

還有廠商則展示了不同于GPU的另一條高性能計算路線,比如國內(nèi)唯一實現(xiàn)TPU量產(chǎn)的中昊芯英。
該公司打造的“剎那”系列TPU,采用完全可控的IP核與自研指令集、計算平臺,其可重構(gòu)多級存儲、存算一體的設(shè)計,配合Chiplet技術(shù)實現(xiàn)2.5D封裝,在相同AI計算任務(wù)下能耗可降低三成。

另外,該枚芯片還有較強的集群擴展能力,最高支持1024片芯片高速互聯(lián),基于“剎那”打造的“泰則”計算集群系統(tǒng),單集群最大浮點運算能力在稀疏算力下達400P(TF32)以上,可支撐超千億參數(shù)的AI大模型計算。
據(jù)現(xiàn)場工作人員介紹,目前“泰則”計算集群系統(tǒng),已完成對AIGC大模型計算、高級無人駕駛模型訓(xùn)練、蛋白質(zhì)結(jié)構(gòu)精密預(yù)測在內(nèi)的各類高強度運算場景的適配。
下沉到場景中
在兩個月前的鯤鵬昇騰開發(fā)者大會上,作為華為今年來在算力基礎(chǔ)設(shè)施上的集大成者,“384超節(jié)點”被首次公開,基于昇騰超節(jié)點技術(shù),實現(xiàn)了業(yè)界規(guī)模最大的384卡高速總線互聯(lián)。

本次展會上,“384超節(jié)點”真機完成了在公眾面前的首次亮相,而該系統(tǒng)在大模型適配上的進度也令人矚目。據(jù)悉,目前業(yè)界已基于昇騰適配和開發(fā)超過80個大模型,在基礎(chǔ)大模型方面多個技術(shù)方向均有積累,如訊飛星火認(rèn)知、DeepSeek、Qwen、鵬城、LLaMA等。
在場景適配上,基于昇騰軟硬件能力、訓(xùn)練與推理解決方案及開源開放的軟硬件生態(tài),華為聯(lián)合伙伴展示互聯(lián)網(wǎng)、運營商、金融、政務(wù)、醫(yī)療、油氣、交通等行業(yè)解決方案實踐。
另一家國產(chǎn)GPU企業(yè)摩爾線程,在現(xiàn)場展示的場景適配上則要更加細(xì)致。
在摩爾線程展位,該公司共帶來了包括生命科學(xué)、物理仿真、空間智能、視頻超分在內(nèi)的12項面對不同行業(yè)打造的Demo。
令筆者印象較為深刻的是視頻超分技術(shù)MTVSR。該技術(shù)可在端側(cè)提供2-4倍的視頻實時超分,并提供多檔質(zhì)量設(shè)定,能夠顯著提升低分辨率視頻在高分辨率屏幕下的播放清晰度,且以SDK形式支持播放器、瀏覽器等APP集成調(diào)用,可為終端用戶提供無縫的視頻超分體驗。

不同于一般的行業(yè)垂直解決方案,視頻場景中的端則軟件技術(shù),由于其廣泛的應(yīng)用性,一方面能夠有效調(diào)動行業(yè)應(yīng)用,比如降低內(nèi)容創(chuàng)作者獲取高質(zhì)量素材的成本,提高內(nèi)容生產(chǎn)效率;另一方面還能夠有效刺激產(chǎn)業(yè)生態(tài)構(gòu)建,主動吸引視頻播放軟件、游戲開發(fā)商、監(jiān)控設(shè)備制造商等多方協(xié)同。
華為以超節(jié)點技術(shù)夯實大模型訓(xùn)練的算力底座,通過廣泛的行業(yè)適配構(gòu)建生態(tài)護城河;摩爾線程則聚焦細(xì)分場景,用輕量化技術(shù)方案打通算力應(yīng)用的“最后一公里”。兩者雖聚焦不同層面,但卻很好地反映出了眼下國產(chǎn)算力基礎(chǔ)設(shè)施所呈現(xiàn)出“高低搭配、全域覆蓋”的發(fā)展態(tài)勢。