9月24日,2025云棲大會(huì)在杭州開幕,這場(chǎng)以“云智一體·碳硅共生”為主題的科技盛會(huì)匯聚了來自50多個(gè)國家的2000余位嘉賓,共同探討AI、云計(jì)算與產(chǎn)業(yè)應(yīng)用的最新趨勢(shì)。
大會(huì)首日,阿里云連發(fā)7款通義大模型,從模型智能水平、Agent工具調(diào)用,到Coding能力、深度推理、多模態(tài),各方面性能均實(shí)現(xiàn)多項(xiàng)突破。
其中,行業(yè)首個(gè)原生端到端全模態(tài)AI大模型Qwen3-Omni,通過引入多種架構(gòu)升級(jí)和技術(shù)迭代,在36個(gè)音視頻基準(zhǔn)測(cè)試中實(shí)現(xiàn)22項(xiàng)SOTA,32項(xiàng)取得開源模型最佳效果。
聚焦于通義多模態(tài)前沿技術(shù),在9月24日下午的通義多模態(tài)交互技術(shù)論壇上,來自阿里通義實(shí)驗(yàn)室與斑馬智行、聯(lián)想、云希谷等企業(yè)的專家或高管,分別帶來了多模態(tài)感知與交互、多模態(tài)融合理解、端云協(xié)同等核心方向上的技術(shù)分享。

多模態(tài)大模型通過融合視覺、語言、音頻等多種信息模態(tài),讓AI能夠以更接近人類的方式感知和認(rèn)知世界。斑馬智行首席技術(shù)官司羅指出,當(dāng)前多模態(tài)大模型發(fā)展正呈現(xiàn)三大趨勢(shì):統(tǒng)一架構(gòu)與原生多模態(tài)融合、推理能力的深化,以及模型部署的兩極化。
而在汽車智能化領(lǐng)域,多模態(tài)大模型的應(yīng)用正在推進(jìn)智能座艙架構(gòu)的演進(jìn)。
傳統(tǒng)“流水線”架構(gòu)依賴預(yù)設(shè)規(guī)則與分散感知,難以處理復(fù)雜場(chǎng)景;而新一代“端到端”架構(gòu)基于原生多模態(tài)大模型,能夠?qū)崿F(xiàn)感知—認(rèn)知—決策的閉環(huán),真正具備情境理解與主動(dòng)服務(wù)能力。
同時(shí),在信息安全的需求下,端到端架構(gòu)也逐漸從融合到端側(cè)演進(jìn),不僅解決了數(shù)據(jù)隱私和延遲問題,更通過本地化處理實(shí)現(xiàn)了真正的實(shí)時(shí)智能響應(yīng)。
基于這些技術(shù)趨勢(shì),斑馬智行宣布率先融合接入阿里云Qwen3-Omni模型,這也是該原生端到端全模態(tài)AI大模型首次被采用。
9月26日,斑馬智行將聯(lián)合阿里云與高通,正式發(fā)布端到端全模態(tài)端側(cè)大模型解決方案Auto Omni。據(jù)介紹,該方案基于阿里云Qwen Omni及高通驍龍8397芯片平臺(tái)打造,在業(yè)內(nèi)率先采用端到端技術(shù)架構(gòu),具有主動(dòng)智能、斷網(wǎng)可用、隱私無憂三大特點(diǎn),能夠?qū)崿F(xiàn)從指令式交互到Always on主動(dòng)智能的代際提升。
通過兩大場(chǎng)景,司羅展示了智能座艙基于Auto Omni實(shí)現(xiàn)的主動(dòng)智能能力,如通過多模態(tài)感知乘員狀態(tài)及車內(nèi)外環(huán)境差異,自動(dòng)開啟空調(diào)并避免吹到車主的臉;實(shí)時(shí)解析車內(nèi)對(duì)話語義,結(jié)合情景理解主動(dòng)參與對(duì)話并提供服務(wù)等。
