![]()
智東西
作者 李水青
編輯 漠影
今年6月,羅永浩的數(shù)字人登上百度電商直播間,連續(xù)6小時不間斷“帶貨”,一邊調(diào)侃、一邊拎著可樂、喝著奶茶,與助播朱蕭木的數(shù)字人一唱一和,引發(fā)1300萬人次圍觀。這場直播最終實現(xiàn)GMV(商品交易總額)5500萬元,刷新了數(shù)字人帶貨紀(jì)錄。
▲羅永浩的數(shù)字人直播
現(xiàn)在,驅(qū)動這場直播的“AI總導(dǎo)演”,站上了世界互聯(lián)網(wǎng)大會烏鎮(zhèn)峰會的領(lǐng)獎臺。
在11月6日至9日舉行的2025年世界互聯(lián)網(wǎng)大會烏鎮(zhèn)峰會上,百度“劇本驅(qū)動多模協(xié)同的高擬真數(shù)字人技術(shù)”榮獲領(lǐng)先科技獎,實現(xiàn)連續(xù)三年獲獎。
![]()
▲百度CTO王海峰在講解高擬真數(shù)字人技術(shù)
從羅永浩的數(shù)字分身到世界互聯(lián)網(wǎng)大會的領(lǐng)獎舞臺,我們看到數(shù)字人好像跟前幾年我們印象中的不一樣了,一個問題隨之浮現(xiàn):
讓數(shù)字人跨越“形似”的初級階段,進入“神形兼?zhèn)洹钡娜戮辰纾俣仁侨绾巫龅模?/strong>
一、烏鎮(zhèn)大會上的AI新風(fēng)向:數(shù)字人成大模型經(jīng)典落地場景
世界互聯(lián)網(wǎng)大會“領(lǐng)先科技獎”是全球互聯(lián)網(wǎng)科技發(fā)展的一個風(fēng)向標(biāo)。
在今年的世界互聯(lián)網(wǎng)大會烏鎮(zhèn)峰會上,評審委員會從34個國家和地區(qū)征集了424項科技成果,經(jīng)海內(nèi)外專家評審,最終遴選出17項年度領(lǐng)先成果。
其中,作為融合了大語言模型與多模態(tài)技術(shù)的創(chuàng)新應(yīng)用,百度“劇本驅(qū)動多模協(xié)同的高擬真數(shù)字人技術(shù)”成功入選。一同入選的還有中國科學(xué)院計算技術(shù)研究所、中國科學(xué)院軟件研究所的“處理器芯片軟硬件全自動設(shè)計”,清華大學(xué)“北斗三號衛(wèi)星導(dǎo)航信號關(guān)鍵技術(shù)及應(yīng)用”等成果。
![]()
▲2025年世界互聯(lián)網(wǎng)大會領(lǐng)先科技獎頒獎現(xiàn)場
當(dāng)下,數(shù)字人正成為AI最具代表性的落地場景之一。百度“劇本驅(qū)動多模協(xié)同的高擬真數(shù)字人技術(shù)”體現(xiàn)了這一趨勢,不僅是語言、視覺、語音技術(shù)的融合創(chuàng)新,更是百度多年AI技術(shù)的集大成者。
從2023年“知識增強大語言模型關(guān)鍵技術(shù)”到2024年“文心智能體技術(shù)”,百度成為唯一連續(xù)三年獲獎的人工智能公司。
二、何以“高擬真”?5大核心技術(shù),為數(shù)字人注入“靈魂”
過去我們談數(shù)字人,更多是關(guān)注“像不像”;而今天百度的數(shù)字人,已經(jīng)進入“神似”的維度。何以“高擬真”?
其核心,在于以文心大模型為內(nèi)核的“劇本驅(qū)動多模協(xié)同技術(shù)”,讓數(shù)字人具備了自我理解、規(guī)劃和表演的能力。該技術(shù)有以下五大創(chuàng)新點:
![]()
1、劇本驅(qū)動多模協(xié)同:為數(shù)字人注入“靈魂”
傳統(tǒng)數(shù)字人依賴人工腳本和單模態(tài)驅(qū)動,而百度的這項技術(shù)能生成一份真正意義上的“劇本”, 劇本生成的核心在于語言模型驅(qū)動下的多模態(tài)協(xié)同,不僅有“說什么”,還有“怎么說、說的時候怎么配合動作表情”。
比如,當(dāng)提到“法令紋”時,視覺系統(tǒng)會自動指向?qū)?yīng)面部區(qū)域;當(dāng)數(shù)字人“送福利”時,語音模塊會自動調(diào)整語調(diào),表現(xiàn)出興奮情緒。甚至在雙人互動時,還能標(biāo)記“在哪個詞后接話”,實現(xiàn)無縫對話。
這讓數(shù)字人不再只是“說話的模型”,而是真正擁有導(dǎo)演級的多模態(tài)表達協(xié)調(diào)力。
![]()
2、融合多模規(guī)劃與深度思考的劇本生成:讓對話自然流暢
數(shù)字人不止能說臺詞,還能“思考劇情”。百度通過融合多模規(guī)劃與大模型推理,實現(xiàn)了對對話上下文的整體理解。
在直播中,數(shù)字人不僅能按照預(yù)設(shè)劇本推進,還能根據(jù)直播間實時熱度及用戶反饋,智能調(diào)整講解節(jié)奏與互動內(nèi)容,實現(xiàn)銜接自然的動態(tài)交互。
這正是數(shù)字人老羅能秒接網(wǎng)絡(luò)熱梗,展現(xiàn)出鮮明人設(shè)與活潑語言風(fēng)格的技術(shù)基礎(chǔ)。
3、動態(tài)決策的實時交互:賦予“臨場反應(yīng)”能力
基于大模型的實時感知與決策能力,數(shù)字人不再是單向輸出的播報機器,而具備了類似真人的現(xiàn)場“判斷力”。
它能夠理解彈幕評論、感知直播間氛圍,并據(jù)此做出實時反饋,如回答用戶提問、玩梗互動、調(diào)整講解策略,從而極大提升了互動的真實感與用戶的參與感。
4、文本自控的語音合成:告別“機械朗讀”
聲音,是數(shù)字人“靈魂”的另一半。百度的語音合成大模型通過“文本自控”機制,讓聲音擺脫機械朗讀感,實現(xiàn)與表達與語義、情緒高度一致。
其核心在于,模型能深度理解直播臺詞的文風(fēng)與語境,并結(jié)合發(fā)音人(如羅永浩)的獨特特征,將文本信息“翻譯”成自然、富有感染力的聲音。
通過對話上下文編碼器,百度解決了雙人直播中聲音配合的難題,實現(xiàn)了羅永浩與朱蕭木數(shù)字人之間流暢、自然的對話效果。
![]()
5、高一致性超擬真長視頻生成:挑戰(zhàn)“時長極限”
數(shù)字人直播常常持續(xù)數(shù)小時,如何讓其在長時間內(nèi)保持表情、動作和場景的自然連貫,是一項行業(yè)難題。
百度通過結(jié)合多模態(tài)視頻理解、跨模態(tài)信號生成等關(guān)鍵技術(shù),攻克了高可控交互、長時間一致性保持等業(yè)界難題,實現(xiàn)了高一致性、超擬真的數(shù)字人長視頻生成,將AI視頻生成的應(yīng)用邊界從“秒級”拓展至“小時級”。
羅永浩數(shù)字人直播6小時全程動作自然、視線交互精準(zhǔn),就是這一技術(shù)的成果。
可以看到,百度以“神、形、音、容、話”的統(tǒng)一能力,構(gòu)建一個兼具表達力與情感力的數(shù)字人系統(tǒng)。它不只是模仿人類,而是在理解人類表達邏輯的基礎(chǔ)上“再創(chuàng)造人類體驗”。
三、從羅永浩到萬千場景:10萬數(shù)字人,讓開播成本暴降80%
頂尖的技術(shù)價值,最終需要通過大規(guī)模應(yīng)用與實實在在的商業(yè)效益來驗證。
在百度,這項獲獎技術(shù)的規(guī)模化落地已現(xiàn)成效。官方數(shù)據(jù)顯示,基于該技術(shù)已生產(chǎn)超過10萬個數(shù)字人,覆蓋電商、教育、法律、健康等數(shù)十個行業(yè),助力商家開播成本降低80%,直播轉(zhuǎn)化率提升31%。
以“羅永浩數(shù)字人”為例,其6月15日的首秀不僅是技術(shù)實力的展示,更是一場成功的商業(yè)實踐:
整場直播持續(xù)6小時,AI調(diào)用知識庫1.3萬次,生成9.7萬字產(chǎn)品講解內(nèi)容,雙數(shù)字人搭檔做出超8300個動作。從直播效果來看,整場直播吸引1300萬人次觀看,GMV突破5500萬元,部分核心品類帶貨單量甚至超過羅永浩5月真人首秀同期數(shù)據(jù)。
羅永浩本人也通過視頻表示“讓我驚訝”、“完美收官”,稱數(shù)字人直播“可能代表了電商直播的新趨勢”。
▲羅永浩的數(shù)字人直播
技術(shù)紅利正滲透至千行百業(yè)。在山東德州夏津縣,三位平均年齡超65歲的老支書,借助百度“慧播星”數(shù)字人技術(shù),進行7×24小時不間斷直播,精準(zhǔn)講解產(chǎn)品、實時回復(fù)問題。開通數(shù)字人直播短短一個月,他們的地瓜直播間訂單近萬單,總銷售額突破15萬元,成功售出農(nóng)產(chǎn)品3.3萬斤。
據(jù)悉,這種“真人+數(shù)字人”雙軌模式已形成可復(fù)制的助農(nóng)路徑——百度電商“一村一品”項目通過“慧播星”等技術(shù),累計幫助全國1000多戶農(nóng)民增收,商品交易總額超2500萬元。
可以看到,從超頭主播的直播間到田間地頭的助農(nóng)現(xiàn)場,百度數(shù)字人技術(shù)正在智能客服、虛擬教師、數(shù)字代言人、互動娛樂等多個領(lǐng)域落地開花。
結(jié)語:AI數(shù)字人迎技術(shù)產(chǎn)業(yè)升級,帶來商業(yè)新增長點
從羅永浩直播間里那個能接梗、會互動、神形兼?zhèn)涞臄?shù)字人,到賦能十萬數(shù)字人降低商業(yè)成本、提升轉(zhuǎn)化效率的產(chǎn)業(yè)平臺,我們看到,以大模型為核心的AI數(shù)字人技術(shù),已成為驅(qū)動產(chǎn)業(yè)升級、創(chuàng)造商業(yè)新增長點的強大引擎。
數(shù)字人的發(fā)展,已走過“形似”、“神似”,正進入百度所定義的“高擬真”、“高說服力”階段。而未來,數(shù)字人或?qū)⒄嬲谀承┓矫娉秸嫒耍瑢崿F(xiàn)超長待機、千人千面、多語言多風(fēng)格的極致服務(wù)。
過去的十年,百度在AI上的每一次突破,都像是鋪設(shè)通向未來的基石。世界互聯(lián)網(wǎng)大會展現(xiàn)出的新風(fēng)向表明,技術(shù)長期主義與系統(tǒng)化布局是推動智能產(chǎn)業(yè)發(fā)展的必由之路。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.