<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      告別「面癱」配音,InfiniteTalk開啟從口型同步到全身表達(dá)新范式

      0
      分享至



      傳統(tǒng) video dubbing 技術(shù)長期受限于其固有的 “口型僵局”,即僅能編輯嘴部區(qū)域,導(dǎo)致配音所傳遞的情感與人物的面部、肢體表達(dá)嚴(yán)重脫節(jié),削弱了觀眾的沉浸感。現(xiàn)有新興的音頻驅(qū)動視頻生成模型,在應(yīng)對長視頻序列時(shí)也暴露出身份漂移和片段過渡生硬等問題。為解決這些痛點(diǎn),Infinitetalk 引入 “稀疏幀 video dubbing”。

      這一新范式從根本上重新定義了 video dubbing,將其從簡單的 “嘴部區(qū)域修復(fù)” 轉(zhuǎn)變?yōu)?“以稀疏關(guān)鍵幀為引導(dǎo)的全身視頻生成”。該模型不僅能夠?qū)崿F(xiàn)口型與配音的精準(zhǔn)同步,更實(shí)現(xiàn)了面部表情、頭部轉(zhuǎn)動和肢體語言與音頻所表達(dá)情感的自然對齊,消除長視頻生成中的累積誤差和突兀過渡。

      InfiniteTalk 是由美團(tuán)視覺智能部主導(dǎo)研發(fā)的新型虛擬人驅(qū)動技術(shù),技術(shù)論文、代碼、權(quán)重已開源。 美團(tuán)視覺智能部能圍繞豐富的本地生活電商場景,建設(shè)從基礎(chǔ)通用到細(xì)分領(lǐng)域的視覺技術(shù)能力,包括視覺生成大模型、多模交互虛擬人,助力營銷創(chuàng)意生產(chǎn)和商家低成本直播;文檔、商品、安全多模態(tài)大模型,助力商家開店經(jīng)營、平臺商品治理和違規(guī)賬號治理;人臉識別、文字識別、細(xì)粒度圖像分析、高性能檢測分割、街景理解成為公司基礎(chǔ)設(shè)施能力。



      • 項(xiàng)目主頁:https://meigen-ai.github.io/InfiniteTalk/
      • 開源代碼:https://github.com/MeiGen-AI/InfiniteTalk
      • 技術(shù)報(bào)告:https://arxiv.org/abs/2508.14033

      我們先看示例:

      一、引言 ——video dubbing 的一個(gè)長期痛點(diǎn)

      長期以來,video dubbing 一直面臨一個(gè)核心的 “僵局”—— 其編輯范圍的局限性。傳統(tǒng)的 video dubbing 技術(shù),例如 MuseTalk 和 LatentSync,通常專注于對嘴部區(qū)域進(jìn)行 “修復(fù)式” 編輯,以實(shí)現(xiàn)口型與新音頻的同步。這種方法的主要局限在于,它幾乎不觸及人物的面部表情、頭部轉(zhuǎn)動和肢體動作。

      這種 “局部編輯” 的策略導(dǎo)致了一個(gè)嚴(yán)重的矛盾:當(dāng)配音表達(dá)出強(qiáng)烈的情感(例如激動、憤怒或喜悅)時(shí),視頻中人物的身體姿態(tài)卻保持著僵硬或靜止?fàn)顟B(tài)。例如,一段充滿激情的對話,人物卻只是面部肌肉輕微抽動,身體保持紋絲不動。這種視聽信息的不一致性會嚴(yán)重破壞觀眾的沉浸感,使生成的視頻顯得不自然,缺乏說服力。這種矛盾感的存在,從根本上制約了配音視頻的質(zhì)量,并成為內(nèi)容創(chuàng)作者亟待解決的難題。如圖 1 所示。



      隨著人工智能技術(shù)的發(fā)展,一些音頻驅(qū)動的視頻生成模型應(yīng)運(yùn)而生,試圖解決這一問題。然而,直接將這些模型應(yīng)用于長 video dubbing 任務(wù),同樣暴露出新的、且同樣關(guān)鍵的挑戰(zhàn)。

      首先是基于圖像轉(zhuǎn)視頻(Image-to-Video, I2V)的方法。這類模型通常以視頻的首幀圖像作為初始參考,然后根據(jù)音頻生成后續(xù)的視頻序列。雖然這種方法在理論上提供了更大的動作自由度,但它存在嚴(yán)重的 “累積誤差” 問題,如圖 2 (left)。由于模型缺乏持續(xù)的原始關(guān)鍵幀作為錨定,在生成較長的視頻序列時(shí),人物的身份特征(如面部細(xì)節(jié)、發(fā)型等)會逐漸偏離源視頻,甚至背景的色調(diào)也可能發(fā)生不可控的偏移,導(dǎo)致視頻質(zhì)量隨時(shí)間推移而下降。

      其次是基于首末幀轉(zhuǎn)視頻(First-Last-frame-to-Video, FL2V)的方法。該方法試圖通過同時(shí)使用視頻片段的起始幀和終止幀作為參考來解決累積誤差。然而,這種策略帶來了另一個(gè)問題:過渡生硬, 如圖 2(right)。FL2V 模型生成過程缺乏從前一片段向后一片段傳遞的 “動量信息”,不同視頻片段之間的動作銜接會顯得突兀和不自然,打破了視頻流的連續(xù)性。與此同時(shí),其過于嚴(yán)格地遵循固定的參考幀,強(qiáng)制生成的視頻在片段(chunk)的邊界上精確復(fù)制參考幀的姿態(tài),即使這種姿態(tài)與新音頻的情感或節(jié)奏相悖。

      這兩種主流 AI 方案的局限性揭示了一個(gè)核心矛盾:即 “局部編輯的僵硬” 與 “全局生成的失控”。傳統(tǒng)方法因編輯范圍狹窄而僵硬,而新興的 AI 生成模型則在長視頻的連貫性上遭遇了挑戰(zhàn)。



      二、新的范式:稀疏幀 video dubbing

      為了從根本上解決上述挑戰(zhàn),Infinitetalk 引入了一個(gè)全新的技術(shù)范式 ——“稀疏幀 video dubbing”。這一范式徹底改變了 video dubbing 的技術(shù)哲學(xué):它不再將任務(wù)定義為對嘴部區(qū)域的 “修復(fù)”(inpainting),而是將其重構(gòu)為一場 “以稀疏關(guān)鍵幀為引導(dǎo)的全身視頻生成”。其核心理念在于,不是逐幀地、僵硬地復(fù)制源視頻,而是策略性地僅保留和利用源視頻中的少數(shù)關(guān)鍵幀(sparse keyframes)作為核心參考。這些關(guān)鍵幀如同 “視覺錨點(diǎn)”,在生成過程中發(fā)揮著至關(guān)重要的作用。



      為了應(yīng)對無限長度的視頻序列生成任務(wù),InfiniteTalk 采用了流式(streaming)生成架構(gòu),整體網(wǎng)絡(luò)框架如圖 4 所示。其工作原理是將一個(gè)超長視頻分解為多個(gè)小的、可管理的視頻片段(chunks),然后逐一進(jìn)行生成。然而,與簡單的分段生成不同,InfiniteTalk 的核心在于其精巧設(shè)計(jì)的 “上下文幀”(context frames)機(jī)制。

      當(dāng)模型生成一個(gè)新片段時(shí),它不僅僅依賴于源視頻的參考幀,還會利用上一段已生成視頻的末尾幀作為下一段生成的 “動量信息”。這些上下文幀為新片段的生成提供了必要的 “時(shí)間上下文”,使其能夠承接前一片段的運(yùn)動趨勢和動態(tài),確保動作的連續(xù)性和流暢性。這一機(jī)制如同接力賽中的接力棒,將前一棒的沖刺動量無縫傳遞給下一棒,從而徹底解決了傳統(tǒng) FL2V 模型中因缺乏動量信息而導(dǎo)致的片段間突兀過渡問題。通過流式架構(gòu)和上下文幀機(jī)制的結(jié)合,InfiniteTalk 成功地將 “片段生成” 任務(wù)提升為 “連續(xù)流生成”,這是其實(shí)現(xiàn) “無限長度” 生成能力的技術(shù)基石。

      在 “稀疏幀 video dubbing” 范式下,一個(gè)關(guān)鍵的挑戰(zhàn)是如何在 “自由表達(dá)” 與 “跟隨參考” 之間找到微妙的平衡。過于嚴(yán)格地復(fù)制參考幀(如 M1 策略)會導(dǎo)致生成的動作僵硬,而如果控制過于松散(如 M2 策略),則又會面臨身份和背景失真等問題。InfiniteTalk 的核心策略是采用一種 “軟條件”(soft conditioning)控制機(jī)制 。該機(jī)制的核心發(fā)現(xiàn)是,模型的控制強(qiáng)度并非固定不變,而是由 “視頻上下文和參考圖像的相似度” 所決定 ?;谶@一發(fā)現(xiàn),Infinitetalk 設(shè)計(jì)了一種獨(dú)特的采樣策略,通過 “細(xì)粒度的參考幀定位”(fine-grained reference frame positioning)來動態(tài)調(diào)整控制強(qiáng)度,從而在動作自然度與參考幀的保真度之間取得平衡。



      如表 3 所示,M0 策略因隨機(jī)采樣而控制強(qiáng)度過高,導(dǎo)致模型不恰當(dāng)?shù)貜?fù)制參考動作,削弱了同步性。M1 策略雖然在視覺質(zhì)量上表現(xiàn)尚可,但在同步性上表現(xiàn)較差,因?yàn)樗^于嚴(yán)格地復(fù)制了邊界幀。M2 策略因參考幀與上下文幀的時(shí)間距離過遠(yuǎn),導(dǎo)致模型對身份和背景的控制力不足,最終在視覺質(zhì)量(FID、FVD)上表現(xiàn)最差。

      最終被采納的 M3 策略,通過在訓(xùn)練中從鄰近分塊(adjacent chunks)中采樣參考幀,找到了一個(gè) “最優(yōu)平衡點(diǎn)”(optimal equilibrium)。這種策略既能確保模型在視覺上遵循源視頻的風(fēng)格,又能賦予模型根據(jù)音頻動態(tài)生成全身動作的自由。



      此外,該模型還能通過集成 SDEdit 或 Uni3C 等插件,實(shí)現(xiàn)對源視頻中微妙的鏡頭運(yùn)動(camera movement)的精確保留。這一點(diǎn)至關(guān)重要,因?yàn)樗_保了生成的視頻不僅人物動作自然,連畫面的構(gòu)圖和運(yùn)鏡都與源視頻保持一致,進(jìn)一步提升了視頻的真實(shí)感和連貫性。

      三、實(shí)驗(yàn)數(shù)據(jù)與視覺實(shí)證

      為了全面驗(yàn)證 InfiniteTalk 的性能,將其與多個(gè)方法進(jìn)行了對比。





      不同相機(jī)控制方法的對比:



      四、結(jié)語與展望

      InfiniteTalk 成功解決了 “僵硬” 與 “斷裂” 兩大痛點(diǎn)。其核心技術(shù) —— 流式生成架構(gòu)、軟條件控制以及全方位同步能力,共同為高質(zhì)量、長序列的視頻內(nèi)容生成提供了新的解決方案。在短視頻創(chuàng)作、虛擬偶像、在線教育以及沉浸式體驗(yàn)等領(lǐng)域,這項(xiàng)技術(shù)可以為創(chuàng)作者提供強(qiáng)大的工具,以更低的成本、更高的效率生成富有表現(xiàn)力的動態(tài)內(nèi)容,徹底打破現(xiàn)有制作流程的瓶頸。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      董子健空降!孫怡帶貨破紀(jì)錄,哽咽謝粉絲信任

      董子健空降!孫怡帶貨破紀(jì)錄,哽咽謝粉絲信任

      兔子雜談i
      2025-11-05 12:34:45
      baby新男友已獲小海綿認(rèn)可?街頭帶娃遛大型犬,像幸福的一家三口

      baby新男友已獲小海綿認(rèn)可?街頭帶娃遛大型犬,像幸福的一家三口

      八星人
      2025-11-05 15:55:40
      王家衛(wèi)不戴墨鏡的照片,原來是長這樣的,平時(shí)基本都是戴墨鏡

      王家衛(wèi)不戴墨鏡的照片,原來是長這樣的,平時(shí)基本都是戴墨鏡

      手工制作阿殲
      2025-11-05 13:44:19
      中美為何斗而不破?背后的秘密

      中美為何斗而不破?背后的秘密

      楓冷慕詩
      2025-11-04 17:08:53
      秦雯編劇電視劇被央視撤檔,此前王家衛(wèi)秦雯私密錄音曝光惹爭議

      秦雯編劇電視劇被央視撤檔,此前王家衛(wèi)秦雯私密錄音曝光惹爭議

      魯中晨報(bào)
      2025-11-05 11:31:09
      在孟加拉國,我不是在旅游,我是在見證什么叫真正的人口壓力

      在孟加拉國,我不是在旅游,我是在見證什么叫真正的人口壓力

      詩意世界
      2025-11-05 18:18:26
      這是什么邪修?新勢力零跑月銷7萬輛

      這是什么邪修?新勢力零跑月銷7萬輛

      電動汽車觀察家
      2025-11-05 11:03:38
      本是沖著影帝去看《樹影迷宮》的,卻被44歲一臉猙獰的馬蘇驚艷

      本是沖著影帝去看《樹影迷宮》的,卻被44歲一臉猙獰的馬蘇驚艷

      君笙的拂兮
      2025-11-04 20:08:05
      鄭麗文不裝了?國臺辦回應(yīng)武統(tǒng)后,鄭麗文宣稱:絕不放棄武力保臺

      鄭麗文不裝了?國臺辦回應(yīng)武統(tǒng)后,鄭麗文宣稱:絕不放棄武力保臺

      原來仙女不講理
      2025-11-05 22:40:59
      遼寧檢察機(jī)關(guān)依法對韓非決定逮捕

      遼寧檢察機(jī)關(guān)依法對韓非決定逮捕

      魯中晨報(bào)
      2025-11-05 20:43:02
      綿陽市林業(yè)局局長鄧飛主動投案,接受監(jiān)察調(diào)查

      綿陽市林業(yè)局局長鄧飛主動投案,接受監(jiān)察調(diào)查

      魯中晨報(bào)
      2025-11-05 15:31:03
      人不紅倒是愛蹭!合影搶C位,當(dāng)眾讓李晨難堪的她,如今過得怎樣

      人不紅倒是愛蹭!合影搶C位,當(dāng)眾讓李晨難堪的她,如今過得怎樣

      楓塵余往逝
      2025-11-04 22:27:07
      全國人大常委會法工委副主任孫鎮(zhèn)平調(diào)任最高人民法院政治部主任

      全國人大常委會法工委副主任孫鎮(zhèn)平調(diào)任最高人民法院政治部主任

      澎湃新聞
      2025-11-05 16:08:27
      山姆被罵上熱搜!800萬會員抵制阿里高管,集體喊退卡

      山姆被罵上熱搜!800萬會員抵制阿里高管,集體喊退卡

      吃瓜局
      2025-11-05 15:22:55
      印度不講武德,給蘋果開41億美元罰單,庫克傻眼了!

      印度不講武德,給蘋果開41億美元罰單,庫克傻眼了!

      公子故事會
      2025-11-05 18:11:49
      醫(yī)生忠告:吃完降壓藥千萬別碰這3樣食物,患者要牢記,不能大意

      醫(yī)生忠告:吃完降壓藥千萬別碰這3樣食物,患者要牢記,不能大意

      今日養(yǎng)生之道
      2025-10-23 08:08:38
      邵佳一掌舵國足!媒體人熱議:別把人家害太慘了,難度非常非常大

      邵佳一掌舵國足!媒體人熱議:別把人家害太慘了,難度非常非常大

      奧拜爾
      2025-11-05 17:26:48
      臺積電“跑”不掉了!中國商務(wù)部正式出手,張忠謀時(shí)代要結(jié)束了?

      臺積電“跑”不掉了!中國商務(wù)部正式出手,張忠謀時(shí)代要結(jié)束了?

      史行途
      2025-11-05 14:18:22
      國乒教練調(diào)整內(nèi)幕揭曉,王勵(lì)勤棄用兩位功臣?改革力度超出預(yù)期

      國乒教練調(diào)整內(nèi)幕揭曉,王勵(lì)勤棄用兩位功臣?改革力度超出預(yù)期

      海闊山遙YAO
      2025-11-05 11:54:46
      老年人如何應(yīng)對肌肉流失?醫(yī)生提醒:堅(jiān)持這兩個(gè)方法,效果非常好

      老年人如何應(yīng)對肌肉流失?醫(yī)生提醒:堅(jiān)持這兩個(gè)方法,效果非常好

      老嘪科普
      2025-10-23 19:21:38
      2025-11-05 23:32:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      11656文章數(shù) 142498關(guān)注度
      往期回顧 全部

      科技要聞

      大轉(zhuǎn)彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      考慮賣給沙特48架F-35戰(zhàn)機(jī) 美中東政策或出現(xiàn)重大轉(zhuǎn)變

      頭條要聞

      考慮賣給沙特48架F-35戰(zhàn)機(jī) 美中東政策或出現(xiàn)重大轉(zhuǎn)變

      體育要聞

      贏下皇馬,會是利物浦的轉(zhuǎn)折點(diǎn)嗎?

      娛樂要聞

      港星林尚武突發(fā)心臟病去世

      財(cái)經(jīng)要聞

      事關(guān)加快建設(shè)金融強(qiáng)國 中央金融辦發(fā)聲

      汽車要聞

      智己LS9入局"9系"混戰(zhàn) 全尺寸SUV市場迎來新變量

      態(tài)度原創(chuàng)

      手機(jī)
      時(shí)尚
      親子
      藝術(shù)
      軍事航空

      手機(jī)要聞

      疑似榮耀新機(jī)曝光,雙2億方案測試

      今年一定要擁有這件大衣,復(fù)古又時(shí)髦!

      親子要聞

      溫暖守護(hù)小患者 上海這家醫(yī)院的眼科有個(gè)“兒童樂園”

      藝術(shù)要聞

      蒲華:搦管寫竹,墨沈淋漓

      軍事要聞

      美國“福特”號航母駛往加勒比海

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲中文久久久久久精品国产| 久久久久免费看成人影片| 久久亚洲国产精品久久| 欧美精品国产一区二区三区| 污污内射在线观看一区二区少妇| 亚洲精品99久久久久久欧美版| 亚洲色www成人永久网址| 久久本道综合久久伊人| 国产深夜福利视频在线| 国产无套粉嫩白浆在线| 日本一级午夜福利免费区| 大名县| 高清国产亚洲精品自在久久 | 国产精品偷乱一区二区三区| 欧美人禽杂交狂配| 亚洲一级特黄大片在线观看| 免费吃奶摸下激烈视频| 99在线精品国自产拍中文字幕| 国产一区二区午夜福利久久| 少妇久久久被弄到高潮| 国自产在线精品一本无码中文| 少妇粗大进出白浆嘿嘿视频| 亚洲av第一区二区三区| 不卡一区二区国产精品| 2019国产精品青青草原| 欧洲一区二区中文字幕| 毛片av在线尤物一区二区| 亚洲一区二区约美女探花| 99在线视频免费观看| 一区二区三区无码免费看| 好吊妞人成视频在线观看27du| 综合久久av一区二区三区| 国内精品一区二区不卡| 高陵县| 开心色怡人综合网站| 黑人欧美一级在线视频| 国产乱码精品一区二三区| 你懂的亚洲一区二区三区| 久久国产精品成人免费| 一区二区三区激情免费视频| 伊人色综合久久天天小片|