![]()
機(jī)器之心發(fā)布
機(jī)器之心編輯部
「東州市第一監(jiān)獄,犯人屠國安被獄警帶到了招待室。
門一開,他看到有人背對著他,對方短發(fā),身形纖瘦,姿態(tài)挺拔,在他的記憶里,并沒有這樣的熟人。」
這段文字源自一本知名的刑偵小說《遮云》,而下面這段音頻是對應(yīng)章節(jié)的「有聲」版本,先聽聽:
![]()
在音頻最開始的一分鐘里,我們就聽到了人物對白和旁白解說,腳步、開門、坐下、手銬晃動和遞名片的聲音,背景音樂等多種元素。相比于單純地閱讀文字,聽書的沉浸感確實(shí)強(qiáng)了不少。
如果說,這段聲情并茂的朗讀音頻都是由 AI 生成的呢?很多讀者可能會感到驚訝:「不知不覺,AI 講書的水準(zhǔn)已經(jīng)進(jìn)化到這個地步了?」
是的,這段「AI 講書」背后的配音和后期,來自豆包語音團(tuán)隊(duì)近日發(fā)布的「AI 多人有聲劇」自動化方案。該方案不僅支持多角色、高表現(xiàn)力的 TTS 演播,同時也實(shí)現(xiàn)了全自動 AI 后期的鏈路。
也就是說,從小說文本到高質(zhì)量的多人有聲劇成品,全部由 AI 端到端完成。這意味著,基于該方案的有聲書生產(chǎn)制作成本和周期大幅降低。目前,首批由該方案端到端創(chuàng)作的有聲劇已經(jīng)在番茄小說 App 上線。
具體而言,這套方案基于新升級的多角色 Seed-TTS-2.0 模型,配合 AI 自動音樂、音效、特效和智能混音,在聽感效果上已經(jīng)能夠媲美行業(yè)一流水準(zhǔn)的真人有聲劇。
當(dāng)然,開篇的 Demo 只是該方案的眾多成果之一,讓我們再欣賞一些高光片段:
![]()
把小說變成多人有聲劇,總共分幾步?
小說作品通常具有充滿戲劇性的情節(jié)和極具感染力的臺詞,而將這些小說的文字內(nèi)容轉(zhuǎn)化為有聲劇,同樣受到了很多讀者的歡迎。
傳統(tǒng)多人有聲劇的制作周期較長,一般會持續(xù)數(shù)月。立項(xiàng)后需要先經(jīng)過人工切分畫本并校準(zhǔn),設(shè)計配音角色表,并完成十幾甚至幾十個聲優(yōu)錄制。隨后,后期人員會精修音頻,并在此基礎(chǔ)上進(jìn)行音效、音樂和混音處理,完成母帶制作,最終輸出為專業(yè)的有聲劇成品。
而豆包語音團(tuán)隊(duì)提出的這套新方案,使得有聲書生產(chǎn)的制作成本和周期大幅降低。方案首先利用端到端多角色語音模型合成 TTS 音軌,基于音頻和后期畫本預(yù)測模型,進(jìn)一步生成帶后期的有聲劇。后期音效包含特效、音樂、音效、環(huán)境音,通過智能混音技術(shù)平衡音軌,最終生產(chǎn)出完整的成品多人有聲劇。
![]()
AI 一鍵生成多人有聲劇,如何媲美「真人配音 + 后期」?
在「多角色演播」和「AI 后期」等流程中,豆包語音團(tuán)隊(duì)的「AI 多人有聲劇」自動化方案做到了高水準(zhǔn)生成。
首先是「多角色演播」的效果升級。這套方案支持從「小說文本」到「多角色智能朗讀音頻」的全自動生產(chǎn),音色匹配和對話歸屬準(zhǔn)確率超過 98%。
在多人演播效果上,多角色 Seed-TTS-2.0 模型通過對海量文本與語音的多模態(tài)預(yù)訓(xùn)練,原生地將文本和語音模態(tài)融合,憑借強(qiáng)大的文本理解能力和語音演繹能力,進(jìn)一步提升了對小說的角色、情感、副語言等細(xì)膩的演繹效果。這種演繹效果的升級,源自于幾個創(chuàng)新點(diǎn):
- 篇章級長上下文感知,進(jìn)一步增加模型對上下文的感知范圍,對角色的理解更加到位;
- 歷史長音頻建模,模擬真實(shí)小說錄制場景,可感知所有上文音頻信息,各角色語音承接力、表現(xiàn)力進(jìn)一步加強(qiáng);
- 多輪思維鏈 (CoT) 推理,引入思維鏈信息,強(qiáng)化對當(dāng)前角色、人設(shè)、情感、副語言的理解,打造更加細(xì)膩的演繹效果,帶來沉浸式的聽書體驗(yàn)。
![]()
當(dāng)模型的上下文感知能力更深刻,所呈現(xiàn)的「人物情感」也就更精準(zhǔn)了:
滿身是血的李子夜雙臂強(qiáng)行撐起,說道:“趁他還不能動。”
![]()
再比如,小說文本中的「副語言」演繹效果有了顯著的提升:
“咯咯咯!我現(xiàn)在告訴你一個好消息。”
![]()
此外,該方案創(chuàng)新地實(shí)現(xiàn)了「全自動 AI 后期」
我們知道,畫本對有聲書的制作非常重要,傳統(tǒng)人工方案需要根據(jù)劇本中的人物特點(diǎn),在文本上標(biāo)記強(qiáng)調(diào)詞、停頓點(diǎn)、角色轉(zhuǎn)換提示等,幫助配音者在演播過程中準(zhǔn)確無誤地傳達(dá)信息。而「AI 多人有聲劇」方案能高效地實(shí)現(xiàn)從小說文本到帶有音效、人聲特效、環(huán)境音、配樂的畫本預(yù)測。
![]()
其中,「人聲特效預(yù)測」能夠結(jié)合說話人信息,預(yù)測是否添加特效以及特效內(nèi)容,準(zhǔn)確度接近 100%;動作音效預(yù)測基于 AED(音頻事件檢測)技術(shù)構(gòu)建動作音效體系,在篇章級別的預(yù)測中避免劇情撞車的問題,實(shí)現(xiàn)時間軸精準(zhǔn)對齊;環(huán)境識別預(yù)測能夠在環(huán)境渲染可實(shí)現(xiàn)智能的淡入淡出,豐富后期效果的同時,保持情節(jié)和情緒的穩(wěn)定性,完美適配 TTS 時長;在配樂設(shè)計層面,方案包含的小說智能配樂系統(tǒng),能夠?yàn)椴煌}材匹配最佳 BGM, 配樂與劇情情緒同步、章節(jié)收尾自然,可以很好地烘托劇情氛圍。
方案包含智能動態(tài)混音策略,做到了整體聽感的自然統(tǒng)一與音質(zhì)清晰度的最優(yōu)平衡。在智能動態(tài)平衡與響度控制上,方案能夠?qū)崟r分析人聲軌的能量與響度,使用側(cè)鏈壓縮技術(shù)通過人聲自適應(yīng)壓低 BGM 與環(huán)境音,讓對白始終清晰突出,并通過內(nèi)容感知的動態(tài)范圍與響度標(biāo)準(zhǔn)化處理,確保成品在不同設(shè)備上始終保持一致、自然、專業(yè)的聽感。
![]()
據(jù)了解,「AI 多人有聲劇」自動化方案未來將持續(xù)升級,覆蓋更多精品內(nèi)容,為更多用戶帶來優(yōu)質(zhì)的聽書體驗(yàn)。
文中音頻鏈接:https://mp.weixin.qq.com/s/g1A_U9R6oqxhL1t6tIz0BA
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.