![]()
新智元報道
編輯:KingHZ 犀牛
【新智元導讀】一段令人心碎的離別視頻走紅:小女孩與AI玩具的深情告別,揭示了對話式AI如何悄然融入人類情感世界,預示著實時交互技術的革命性突破。
一段視頻走紅了,只聽聲音就讓人肝腸寸斷:
如果只聽聲音,還以為只是普通的離別。但這是一個只會發生在AI時代的場景:
小女孩依依不舍的「姐姐」,其實是具有語音功能的AI玩具。
![]()
人生中第一次「告別」的痛楚,居然來自AI語音模塊!
不過,如今很多AI的交互還停留在「短信」時代:在輸入框中,輸入問題,AI輸出文字。
但人類溝通中,重要的從來不止是語言內容——
在《Silent Messages》「沉默的信息」中,心理學家Albert Mehrabian提出了「梅拉賓法則」:語言內容占溝通中7%的信息,聲音占38%,表情等身體語言占55%。
![]()
但正如移動互聯網時代,iPhone不僅僅依賴其通信的性能,還需要觸控屏、傳感器等交互技術的突破,AI交互可能是下一個萬億產業。
從技術趨勢來看,多模態是大勢所趨。與之同時,多模態大模型必然從「生成」演進到「交互」。
下一個關鍵演進方向,就是實時交互能力的普及。
多模態LLM,讓計算機出現了類人的實時語音對話能力。實時互動,早已不再局限在人與人之間。隨著技術發展,一個新AI物種誕生了——
具有「活人感」的對話式AI爆發了。
![]()
今年,不止是智能體元年,也將會成為對話式AI的元年。
次次踩中熱點的大會
10月31日,聲網與RTE開發者社區聯合主辦了Convo AI&RTE 2025——第十一屆實時互聯網大會。
今年的大會依舊十分火爆,現場座無虛席,很多朋友只能站著聽。
![]()
![]()
![]()
左右滑動查看
RTE2025大會覆蓋實時互聯網以及對話式AI全生態,推出相關論壇及周邊活動共計20余場,包括技術開發、趨勢洞見、行業觀察、創業投資等多維度話題。
2015年,聲網把面向實時音視頻的RTC開發者大會帶到中國。從那時算起,這場年度盛會已連續舉辦十余屆,期間從未間斷過。
大會起初專注于WebRTC/RTC底層技術交流。
到2020年,由「RTC大會」升級為「RTE實時互聯網大會」,議題從通信技術擴展為「實時互動」的廣闊場景,逐步成長為全球規模最大的實時互聯網盛會,累計覆蓋200+行業場景、影響200萬+開發者,分論壇擴展至20+。
2024年第十屆以「AI愛」為主題,系統呈現RTE+AI能力圖譜與實踐脈絡,并延續了20+論壇的體量。
今年,大會進一步升級為「Convo AI & RTE 2025」(實時互聯網大會暨對話式AI論壇)。
從名字的變遷可以看出,聲網在不丟失原有RTE技術與行業內容的基礎上,把「對話式AI」置于了舞臺中央,面向更高遠的人機對話范式與產業落地。
現在,聲網年服務分鐘數首次突破1萬億,RTE的基礎設施屬性被進一步夯實,也印證了「RTE × 對話式AI」將成為下一階段的主旋律與趨勢。
![]()
最絕的是,RTE大會每年好像都能精準「押中」接下來的熱點,成為整個實時音視頻行業的風向標。
比如,2015年第一屆大會上,聲網說直播連麥會成主流玩法,結果第二年這就火了,成為直播界的風口。
2016年,他們覺得在線教育會是大趨勢,果然第二年在線教育就爆炸式增長。
到了2023年,大會主題是智能、高清,又一次神準地預測了未來——2024年初,多模態技術大爆發,Sora和GPT-4o這些新東西刷爆了輿論,多模態成了各大AI模型玩家的重點發力方向。
在這次大會上,聲網CEO趙斌分享了行業趨勢:
對話式AI將成為下一代AIInfra重要部分。
AI新物種
對話式AI
在大會上,聲網CEO趙斌對當前行業做出重大趨勢判斷:
對話式 AI 正處于從「正常對話」 到 「聲情并茂」的關鍵一躍, 相關行業即將爆發。
在過去一年,開發者和市場對于「對話式AI」的熱情高漲。
聲網的RTE等相關服務年度分鐘數,首次突破1萬億分鐘。
![]()
今年第三季度,聲網的對話式AI用量環比增長了151%!
ElevenLabs黑客松,在比較短的時間內孵化了300多個各種創業項目和場景。
開源的對話式語音智能體TEN Framework和TEN Agent,多次登頂GitHub排行榜,在對話式AI行業社區引起了很多關注。
![]()
對話式AI,已經引起了企業的巨大關注,在很多行業展現了巨大的潛力和前景,在這一領域,下圖就是企業開始進行探索和嘗試的比例。
![]()
對話式AI&Voice Agent創業公司爆發式增長,產業生態繁榮發展,行業煥發新春:
![]()
全球科技巨頭普遍在布局相關領域,努力把對話式AI的體驗帶給所有消費者和開發者,比比皆是。
![]()
就像GenAI早期的內容生產創造新的市場一樣,對話式AI未來潛力巨大,同樣創造新的市場。
![]()
來自于LLM天然的對話智能,市場潛力不可估量。
未來三大賽道
千億美元全球市場
隨著AI加入實時互動,實時互動的躍遷之路正在開啟。
對話式AI的機會在哪里?
![]()
在大會上,展示了業界各種各樣的探索,其中在RTE基礎設施上的Convo AI場景正在紛至沓來。
而在眾多應用場景中,情感陪伴、智能硬件、在線教育將率先實現對話式AI規模化落地。
未來幾十年,聲網篤定判斷,AI陪伴賽道會有非常持續和長足的發展。
一些分析師和投資機構的判斷,甚至還要樂觀很多。
![]()
比如,方舟投資(ARK Invest)的報告顯示,AI陪伴賽道有機會暴漲5000倍,從3000萬美元上漲到700-1500億美元。
此外,大家可以觀察到這一領域的應用量和活躍度的增加。
![]()
新應用如果不做深度優化和體驗保障,存活率也很有挑戰。
最近兩年,AI硬件也開始逐漸出現在市場上。
品類也出現了更多元化的發展,但熱度最高的仍然是養成和陪伴的AI硬件。
![]()
聲網推出了針對硬件開發的板塊和模組,就是對話式AI的開發套件。
如今,對話式AI已經能夠提供豐富的能力。
除了一般的對話以外,音樂、唱歌等等形式也已經成為一種可能,從而為AI陪伴和養成場景提供更好的真實體驗。
在游戲領域,對話式AI已經有了很多探索和創新。
對話式AI將會給所有的游戲探索增添更多的趣味。無論是NPC對話能力,還是場景交互體驗,對話式AI都能提供全新的場景和更好的體驗。甚至一些從業者,已經從底層思考如何重構游戲的體驗和場景。
![]()
游戲和社交的邊界也會變得越來越模糊。
過去的一年,許多垂類的專用AI助理也取得突破性的進展。比如,螞蟻AQ,短時間內就有大量的下載規模,專用助理方向未來還有巨大的空間。
![]()
生成式AI特別是對話式AI,目前正在滲入教育領域的各個方面,創造更加豐富的擬人化教學場景。
![]()
除了最簡單、最直接的口語培訓以外,AI數字人也開始為每個學生提供廉價、普及的擬人化教學場景。
AI教學硬件,也在推陳出新,不斷有些新的嘗試和探索。
在大會現場,趙斌演示了AI客服的功能。
在實時交互與場景理解方面,當前對話式AI已經取得了突破性進展。
在成本和效率上,AI客服終于活出了人樣:單次服務成本降低至0.3元;平均處理時間降低了15%-25%。
![]()
此外,高擬人度實時翻譯已在特定場景實用化;對話式AI+車載智能助理,駕駛體驗更安全更快樂;對話式AI還可以輔助生活,拓展殘障人士生活和工作的邊界。
未來已來,AI實時交互孕育巨大的機會。
OpenAI引爆新賽道
聲網已深耕多年
要把RTE大會辦成對話式AI行業的風向標,靠的絕不是僅僅改個會名,而是聲網在對話式AI領域的長期深耕。
轉折點出現在去年5月,當時OpenAI把GPT-4o ——語音-視覺-文本實時多模態——推到臺前,實時、自然的人機對話成為了行業的新共識。
隨之在2024年10月份,OpenAI面向開發者推出Realtime API公測,聲網的兄弟公司Agora與Twilio、LiveKit一起成為首批三家官方集成伙伴,率先把低時延語音對話能力帶到了實際應用里,也為聲網后續產品化鋪好「底座」。
![]()
在國內生態,聲網同步推進本土化的「Realtime路線」。
有了聲網的底座加持,MiniMax的語音對話成了一個亮點:開口就回、幾乎「秒響應」。就算在信號不穩或環境嘈雜的場景里,也能和AI助手說得清、聽得準、連得穩。
依托MiniMax新一代語音大模型,AI說話更像真人——音色逼真、語氣自然,中英夾雜等多語種切換也不打結。你還可以一鍵調語速、隨心換聲音,操作簡單、效果到位。
另一個大家熟悉的案例是智譜的AI智能助手。
去年8月,智譜率先把視頻通話帶進國內AI助手,得益于他們強大的音視頻理解與情感語音模型,這個AI助手不只會聽你說,還能「看懂」你所處的環境。
在接入聲網的對話式AI技術后,智譜的AI助手通話時延更低、對話更順滑,幾乎像和真人聊天一樣自然。
上線三個月,就已吸引100萬用戶使用,十分火爆。
對話式AI引擎
在對話式 AI 迎來爆發之際,行業仍然面臨著一些挑戰,例如行業數據顯示,僅21%的用戶對現有AI對話體驗滿意,部分服務的用戶流失率高到「不可接受」。
![]()
要實現真正的「類人對話」,企業必須系統性攻克多項復雜問題:
低延遲響應、自然打斷、上下文管理、情感理解與表達等。
![]()
圍繞這些技術難點與熱門場景,聲網一直在持續優化他們的對話式AI服務。
在RTE2025的RTE&對話式AI產品分論壇上,聲網也相繼發布了最新版的對話式AI引擎2.0版,對話式AI開發套件、對話式AI Studio、對話式AI模型評測平臺。
對話式AI引擎2.0新增了預注冊聲紋識別、情緒識別,不僅讓AI知道是誰在說話,更懂得開口時機,顯著優化誤打斷體驗。同時還支持國內外更豐富的ASR、TTS供應商選擇,實現更多語種與音色的選擇。
同時,針對熱門的AI硬件場景,為了進一步降低落地門檻,聲網在大會發布了新版的對話式AI開發套件——R1-4G,該套件基于紫光展銳8910高性能AI芯片,融合4G通信與CPU,讓AI硬件隨身攜帶,實現隨時音視頻交互。
![]()
相比今年3月發布的R1版,R1-4G采用單芯片一體化,幫助開發者快速集成,實現硬件「開口說話」。其核心價值在于擺脫場景限制,借鑒聲網在兒童手表超60%市場經驗,優化音視頻通話與4G適配,擁有極致對話體驗(延遲650ms,打斷340ms,聲紋鎖定)。
![]()
對話式AI模型評測平臺3.0則是在提供橫向評測ASR、LLM、TTS各類主流模型的延遲響應、詞錯誤率、字母數字性能的基礎上,
新增了價格預估計算器,開發者可以根據實際的業務需求,預設人和AI的談話比例,價格預估計算器會在此基礎上給出總價與各模塊的單價,讓你更好地了解到錢都花在了哪里。
![]()
![]()
![]()
左右滑動查看
走向「超級助手」
在今年的RTE大會上發布的《對話式AI發展白皮書》,把技術、產品、生態與場景系統梳理了一遍,也講清楚了行業的共識——
下一代人機交互不再只是「看屏幕、敲鍵盤」,而是「會聽、會看、會說」的實時多模態。
![]()
白皮書獲取方式,見評論區置頂留言。
RTE正從「可選項」變成「基礎設施」,音視頻對話正在成為一切智能應用的標配。
在終端側,耳機、手機、家居設備不斷下放聽見、理解、合成的硬件加速能力,讓「開口—回應—執行」的鏈路真正可用、好用。
配套超級AI助理的硬件會不會有什么完全創新的形態?
會不會出現適應AI的新型計算終端,就像智能手機取代PC成為主流設備一樣?
聲網更加傾向全新交互形態下的硬件形態,可能不太會很快出現。
雖然AI硬件進行個人助理創新并不容易,但預期對話式AI和相關能力引入硬件形態,將會帶來接下來兩年的爆發式增長。
全新的使用習慣正在逐步開始養成,這些都是AI硬件爆發的積極因素。
可以看到AI眼鏡引入對話式AI作為操控的主要交互模式以后,提供了很多新場景下的使用便利和使用價值。
![]()
具身智能也非常獨特,并不需要經過互聯網的傳輸,可以讓AI從終端以離線的方式與人面對面互動和對話。
![]()
但這樣的對話需要更多的語言處理,仍然依賴于實時互動的降噪回聲、增益控制這些基礎技術能力。
實時交互的門檻被持續拉低,開發者可以把更多精力放在體驗設計與業務閉環上。
歷史每一次技術躍遷,都是基礎設施與應用范式的共振時刻。
今天,RTE成為AI對話的底座,聲網站在實時交互的心臟位置;當機器真正「會聽、會看、會說」,
下一個萬億級市場,或許正在一聲「你好」中悄然開啟。
當AI模型廠商、實時互動廠商與應用開發者各司其職、同頻共振,對話式AI的產業閉環已初現雛形。
歷史證明,真正的巨浪,總由分工成熟的生態共同掀起——
而這一次,浪潮的名字叫「對話式AI」。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.