夢瑤 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
還記得今年6月羅永浩那場堪比春晚帶貨專場的直播嗎?評論區(qū)刷屏、訂單秒飄,GMV直接干到了5500萬+:
![]()
當(dāng)時的老羅,前一秒還在念叨“別幫我省錢”,下一秒那副“精明老練”的商人面孔就藏不住了。
推眼鏡、拍桌子、掏清單一氣呵成,操作之嫻熟、語氣之佛系、節(jié)奏之精準(zhǔn),一整個“老羅本羅”!
狀態(tài)太好了,甚至好到讓人根本想不到:這場直播從頭到尾,羅永浩其實一次都沒出鏡……
你看到的“老羅”,其實是個數(shù)字人。(對,連眼鏡反光都合成得像模像樣)
![]()
蒼天啊,真假難辨真假難辨啊!
這出“安能辨我是AI”的魔幻直播大戲,背后的操盤手,正是百度。
他們用一套叫劇本驅(qū)動多模協(xié)同的高擬真數(shù)字人技術(shù),讓數(shù)字人不但能說話,還能演戲、接梗、搶話筒,甚至真·金·白·銀地把貨賣出去。
在正在舉行中的2025年世界互聯(lián)網(wǎng)大會烏鎮(zhèn)峰會上,這項技術(shù)又一次拿下了領(lǐng)先科技獎,這是百度在烏鎮(zhèn)的三連冠,也是唯一連續(xù)三年獲獎的AI公司。
![]()
一個小小數(shù)字人,能說、會演、還能把錢賺得啪啪響,這個技術(shù)……究竟有啥魔力?
這屆數(shù)字人開始凹“編劇+演員+嘴替”人設(shè)了
大家有沒有這種感覺,這兩年數(shù)字人是真的火,不是因為產(chǎn)品多,而是給咱推送的太多了。
十條短視頻直播可能就有一條是數(shù)字人copy的,不是在吆喝賣東西,就是合成面孔在講新聞,“人設(shè)”各不相同,但“人味”都差點(diǎn)意思。
但為啥很多時候我們一眼就能看出來它不是真人?很簡單,是因為數(shù)字人最容易露餡兒的,從來不是臉,而是“人味兒”。
人識別“人”的方法其實特直覺,例如語氣對不對,動作順不順,只要有一點(diǎn)點(diǎn)卡頓、出戲、不自然,立馬就知道“No!這不是真人!”
![]()
而百度劇本驅(qū)動多模協(xié)同的高擬真數(shù)字人技術(shù),就是要從根上解決上面這些問題。
它重點(diǎn)包含劇本驅(qū)動的數(shù)字人多模協(xié)同、融合多模規(guī)劃與深度思考的劇本生成、動態(tài)決策的實時交互、文本自控的語音合成、高一致性超擬真數(shù)字人長視頻生成五項創(chuàng)新技術(shù)。
![]()
簡單講就是,它不是只訓(xùn)練一張臉、一個語音模型,而是讓語言、動作、表情、反應(yīng)、內(nèi)容都能協(xié)同起來,讓數(shù)字人像真人一樣“說”“演”“動”“聽”“想”。
能自己寫劇本的數(shù)字人
現(xiàn)在這年頭,能張口說話的數(shù)字人不算稀罕事兒了,能自己寫劇本、自己演,還能控節(jié)奏、接互動的數(shù)字人才是真·有點(diǎn)能耐。
基于文心大模型,百度這套「劇本驅(qū)動多模協(xié)同」的高擬真數(shù)字人技術(shù)不是你喂一句它說一句,而是它自己就能cos成一位資深編劇,能一口氣輸出一份可以直接開播的全流程直播劇本:
![]()
這份劇本里不僅有“說什么”,還有“怎么說、什么時候說、說的時候怎么配合動作表情”,說到哪該看哪、什么情境配什么語氣、雙人直播時誰該接話、怎么接,全都提前安排好。
舉個例子,提到“抬頭紋、法令紋、頸紋”的時候,小小數(shù)字人會自動調(diào)用視覺標(biāo)簽,告訴系統(tǒng)鏡頭該怎么精準(zhǔn)展示部位。
說“福利來咯”時,就觸發(fā)語音標(biāo)簽,控制情緒語調(diào),讓語氣顯得足夠興奮、但不油膩。
雙人互動時,還能安排“數(shù)字人在哪個詞之后無縫接話”,一句不差,直接接梗不卡殼!
像咱開頭提到的羅永浩那場6個多小時的直播,就是系統(tǒng)基于老羅的人設(shè)和產(chǎn)品特性,調(diào)用知識庫超過1.3萬次,生成的9.7萬字講解內(nèi)容。
不但能像人一樣及時察覺到直播間熱度及用戶的反饋,還能超自然地與用戶實時互動:
![]()
再仔細(xì)看這段視頻還能發(fā)現(xiàn),他能主動邀評、Cue彈幕、拋話題,遇到觀眾刷屏,還能順著話頭加段子,控場氛圍說實話,甚至比一些真人還穩(wěn)。
背后這套“劇本+指令+場控”一體化系統(tǒng),撐起的就是數(shù)字人的真正靈魂感,能聊能演能控場,妥妥的一位“全棧帶貨人”。
張口就能“戲精”附體?包會的!
數(shù)字人到底“裝”得像不像人,開口嘮兩句就能見真章。
在這一塊兒,百度高擬真數(shù)字人算是把“人味兒”打磨到位了,不光講話情緒有起伏、語調(diào)能帶勁兒,還能根據(jù)場景自動切換自己的語言風(fēng)格,說得像,還說得準(zhǔn):
![]()
以至于我們看到老羅那場以假亂真的直播時,第一反應(yīng)是沒任何毛病,因為那佛系又爆梗的講話勁兒真的跟他本人太像了:
![]()
前腳剛喝一口牛奶,后腳立馬張口爆金句:睡前來一杯,半夜上廁所思考一下人生也不錯~
別說觀眾,我要不是知道這是數(shù)字人,真以為老羅這段子水平又進(jìn)化了,當(dāng)一個數(shù)字人能copy到和正主一樣的講話方式時,我只能說是真·修煉得爐火純青了…
(等等,下一步該不會是數(shù)字人上《脫口秀大會》了吧???)
![]()
老話講得好,臺上一分鐘臺下十年功。
能讓數(shù)字人嘴皮子如此之溜,背后的核心技術(shù)是百度自研的文本自控語音合成大模型,不僅能把字讀出來,還能輕輕松松把語氣、節(jié)奏、情緒一起說出來。
此外,為了解決羅永浩數(shù)字人直播雙人配合的難點(diǎn),百度用上了上下文編碼器,把整個對話的來龍去脈喂進(jìn)去統(tǒng)一推理生成。
這才使得數(shù)字人能感知整段臺詞的情緒走向,動態(tài)調(diào)整語調(diào)和氣口,讓聲音聽起來像是“剛想完才說出口”的!
聽不到接縫、也感覺不到誰在等誰,說得順,接得住~
一張臉播到底,不累不崩不出戲
現(xiàn)在之所以有越來越多的商家開始用數(shù)字人代替真人出鏡,很大一個原因是:是人,就會累。
你想啊,人播個三五小時,脫妝不說,臉上隱約寫著四個大字:生!無!可!戀!
作為觀眾的我們看到那疲憊的面孔都忍不住想說一句:“哥,要不你先歇會兒?”(打工人狠狠共鳴了…)
而且講真的,正常人就算能高精力連著播六七個鐘頭,情緒雖可能還在線,但腦子可能早宕機(jī)了…
![]()
于是乎,賽博打工數(shù)字人就上場了!
百度數(shù)字人通過結(jié)合多模態(tài)視頻理解、跨模態(tài)信號生成、長視頻生成的一整套技術(shù)鏈,把數(shù)字人的在線表現(xiàn)力拉滿了:
![]()
沒有疲憊情緒、能在長時間直播中,始終維持統(tǒng)一語氣與人設(shè)狀態(tài),不管播多久、講幾輪,調(diào)性始終如一,不跑偏、不出戲。
此外,對品牌來說,這種一致性是塑造IP的重要前提。
尤其在長時間直播場景里,效率、狀態(tài)、形象,全程在線,對商家來說,這不只是替代,更是一種流程可控、成本更穩(wěn)的新解法。
這樣一來,旋轉(zhuǎn)跳躍不停歇真不是句歌詞了,小小數(shù)字人還真能幾個小時整下來~
技術(shù)落地之后,數(shù)字人開始真正“上工了”
是騾子是馬,當(dāng)然得拉出來溜溜。
如今,百度這套高擬真數(shù)字人技術(shù)已經(jīng)從“demo階段”走向了真實生產(chǎn)環(huán)境,成為了真正跑在一線的“打工仔”。
截至目前,靠它“孵化”出來的數(shù)字人已經(jīng)超過10萬個,活躍在電商、教育、法律、政務(wù)等幾十個行業(yè)。
能賣貨、能講課、能答疑,還不喊累。
更關(guān)鍵的是,它不是“只省事不出活”,而是真能幫企業(yè)提效:
據(jù)官方數(shù)據(jù),目前這套技術(shù)已經(jīng)助力商家開播成本降低80%,轉(zhuǎn)化率提升31%,可謂“多·快·好·省”。
![]()
比如在老羅與朱蕭木的雙人帶貨直播中,百度數(shù)字人連播6小時,吸引觀眾超1300萬,GMV達(dá)到5500萬+,整個這波過程沒有冷場、沒有翻車,“嘴替”穩(wěn)定輸出,觀眾看完都驚呼:真假傻傻分不清楚了…
知識博主艾彌兒也通過百度數(shù)字人接入萬億級知識庫,將用戶停留時長提升101%;蒙牛悠瑞的數(shù)字人通過全時段服務(wù)與動態(tài)策略,使轉(zhuǎn)化率提高了33%。
在山東德州夏津縣,“慧播星”數(shù)字人還助力三位老書記直播帶貨,1個月賣出3.3萬斤農(nóng)產(chǎn)品,賬號訂單量已近萬單,總銷售超15萬元。
更進(jìn)一步,從行業(yè)生態(tài)維度看,這套數(shù)字人技術(shù)也帶來了新的“綠色降本邏輯”:
不拼燈光、不靠體力,全程用算法驅(qū)動、一臺設(shè)備跑全程,不僅能少碳排、多復(fù)用,還能帶動上下游企業(yè)協(xié)同創(chuàng)新,產(chǎn)業(yè)鏈自然更健康。
從城市到鄉(xiāng)村,從書本到助農(nóng),數(shù)字人正悄悄接住每一個場景的需求。
不知不覺中,這套數(shù)字人技術(shù)已經(jīng)變成了百度電商生態(tài)里的“默認(rèn)選項”,撐起了包括圖書、健康、明星直播在內(nèi)的多個業(yè)務(wù)的底盤。
相比傳統(tǒng)直播,商家無需投入大量人力物力,不用搭建場地、購置設(shè)備、培訓(xùn)主播,只需部署一套數(shù)字人系統(tǒng),就能實現(xiàn)全天候內(nèi)容輸出。
而24小時不間斷直播,也讓商品在曝光時長、用戶觸達(dá)頻次、轉(zhuǎn)化機(jī)會上都實現(xiàn)了顯著增長。
![]()
從打工人視角看,這是別人家“永不下播”的同事;從老板視角看,這是穩(wěn)定、耐造、可調(diào)度的理想員工。
總的來說,從前的數(shù)字人,還只是個實驗室demo,現(xiàn)在的數(shù)字人,已經(jīng)在直播間里拉業(yè)績、帶節(jié)奏、撬增長了。
更關(guān)鍵的是,它的表現(xiàn)不只靠“看起來像”,而是拿得出數(shù)據(jù)、撐得起轉(zhuǎn)化、跑得動流程:
讓觀眾停留、讓訂單增長,在一個又一個落地場景中完成“交作業(yè)”。
百度數(shù)字人技術(shù)在烏鎮(zhèn)上的獲獎,不只是在表彰技術(shù)突破,更是在確認(rèn):
一個能上場、能扛活、還能賺得明明白白的數(shù)字人,已經(jīng)成了內(nèi)容產(chǎn)業(yè)的新型基礎(chǔ)設(shè)施。
不是替代真人,而是開辟了一種更穩(wěn)定、更可控的內(nèi)容生產(chǎn)力路徑。
下一場數(shù)字人直播的爆點(diǎn),沒準(zhǔn)就藏在一行劇本的背后,咱就搓搓手期待期待吧。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.