網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

小說一鍵轉(zhuǎn)有聲劇！豆包語音團(tuán)隊(duì)「AI多人有聲劇」，沉浸感拉滿了

2025-10-27 18:59:30　來源: 機(jī)器之心Pro

北京舉報

分享至

機(jī)器之心發(fā)布

機(jī)器之心編輯部

「東州市第一監(jiān)獄，犯人屠國安被獄警帶到了招待室。
門一開，他看到有人背對著他，對方短發(fā)，身形纖瘦，姿態(tài)挺拔，在他的記憶里，并沒有這樣的熟人。」

這段文字源自一本知名的刑偵小說《遮云》，而下面這段音頻是對應(yīng)章節(jié)的「有聲」版本，先聽聽：

在音頻最開始的一分鐘里，我們就聽到了人物對白和旁白解說，腳步、開門、坐下、手銬晃動和遞名片的聲音，背景音樂等多種元素。相比于單純地閱讀文字，聽書的沉浸感確實(shí)強(qiáng)了不少。

如果說，這段聲情并茂的朗讀音頻都是由 AI 生成的呢？很多讀者可能會感到驚訝：「不知不覺，AI 講書的水準(zhǔn)已經(jīng)進(jìn)化到這個地步了？」

是的，這段「AI 講書」背后的配音和后期，來自豆包語音團(tuán)隊(duì)近日發(fā)布的「AI 多人有聲劇」自動化方案。該方案不僅支持多角色、高表現(xiàn)力的 TTS 演播，同時也實(shí)現(xiàn)了全自動 AI 后期的鏈路。

也就是說，從小說文本到高質(zhì)量的多人有聲劇成品，全部由 AI 端到端完成。這意味著，基于該方案的有聲書生產(chǎn)制作成本和周期大幅降低。目前，首批由該方案端到端創(chuàng)作的有聲劇已經(jīng)在番茄小說 App 上線。

具體而言，這套方案基于新升級的多角色 Seed-TTS-2.0 模型，配合 AI 自動音樂、音效、特效和智能混音，在聽感效果上已經(jīng)能夠媲美行業(yè)一流水準(zhǔn)的真人有聲劇。

當(dāng)然，開篇的 Demo 只是該方案的眾多成果之一，讓我們再欣賞一些高光片段：

把小說變成多人有聲劇，總共分幾步？

小說作品通常具有充滿戲劇性的情節(jié)和極具感染力的臺詞，而將這些小說的文字內(nèi)容轉(zhuǎn)化為有聲劇，同樣受到了很多讀者的歡迎。

傳統(tǒng)多人有聲劇的制作周期較長，一般會持續(xù)數(shù)月。立項(xiàng)后需要先經(jīng)過人工切分畫本并校準(zhǔn)，設(shè)計配音角色表，并完成十幾甚至幾十個聲優(yōu)錄制。隨后，后期人員會精修音頻，并在此基礎(chǔ)上進(jìn)行音效、音樂和混音處理，完成母帶制作，最終輸出為專業(yè)的有聲劇成品。

而豆包語音團(tuán)隊(duì)提出的這套新方案，使得有聲書生產(chǎn)的制作成本和周期大幅降低。方案首先利用端到端多角色語音模型合成 TTS 音軌，基于音頻和后期畫本預(yù)測模型，進(jìn)一步生成帶后期的有聲劇。后期音效包含特效、音樂、音效、環(huán)境音，通過智能混音技術(shù)平衡音軌，最終生產(chǎn)出完整的成品多人有聲劇。

AI 一鍵生成多人有聲劇，如何媲美「真人配音 + 后期」？

在「多角色演播」和「AI 后期」等流程中，豆包語音團(tuán)隊(duì)的「AI 多人有聲劇」自動化方案做到了高水準(zhǔn)生成。

首先是「多角色演播」的效果升級。這套方案支持從「小說文本」到「多角色智能朗讀音頻」的全自動生產(chǎn)，音色匹配和對話歸屬準(zhǔn)確率超過 98%。

在多人演播效果上，多角色 Seed-TTS-2.0 模型通過對海量文本與語音的多模態(tài)預(yù)訓(xùn)練，原生地將文本和語音模態(tài)融合，憑借強(qiáng)大的文本理解能力和語音演繹能力，進(jìn)一步提升了對小說的角色、情感、副語言等細(xì)膩的演繹效果。這種演繹效果的升級，源自于幾個創(chuàng)新點(diǎn)：

篇章級長上下文感知，進(jìn)一步增加模型對上下文的感知范圍，對角色的理解更加到位；
歷史長音頻建模，模擬真實(shí)小說錄制場景，可感知所有上文音頻信息，各角色語音承接力、表現(xiàn)力進(jìn)一步加強(qiáng)；
多輪思維鏈 (CoT) 推理，引入思維鏈信息，強(qiáng)化對當(dāng)前角色、人設(shè)、情感、副語言的理解，打造更加細(xì)膩的演繹效果，帶來沉浸式的聽書體驗(yàn)。

當(dāng)模型的上下文感知能力更深刻，所呈現(xiàn)的「人物情感」也就更精準(zhǔn)了：

滿身是血的李子夜雙臂強(qiáng)行撐起，說道：“趁他還不能動。”

再比如，小說文本中的「副語言」演繹效果有了顯著的提升：

“咯咯咯！我現(xiàn)在告訴你一個好消息。”

此外，該方案創(chuàng)新地實(shí)現(xiàn)了「全自動 AI 后期」

我們知道，畫本對有聲書的制作非常重要，傳統(tǒng)人工方案需要根據(jù)劇本中的人物特點(diǎn)，在文本上標(biāo)記強(qiáng)調(diào)詞、停頓點(diǎn)、角色轉(zhuǎn)換提示等，幫助配音者在演播過程中準(zhǔn)確無誤地傳達(dá)信息。而「AI 多人有聲劇」方案能高效地實(shí)現(xiàn)從小說文本到帶有音效、人聲特效、環(huán)境音、配樂的畫本預(yù)測。

其中，「人聲特效預(yù)測」能夠結(jié)合說話人信息，預(yù)測是否添加特效以及特效內(nèi)容，準(zhǔn)確度接近 100%；動作音效預(yù)測基于 AED（音頻事件檢測）技術(shù)構(gòu)建動作音效體系，在篇章級別的預(yù)測中避免劇情撞車的問題，實(shí)現(xiàn)時間軸精準(zhǔn)對齊；環(huán)境識別預(yù)測能夠在環(huán)境渲染可實(shí)現(xiàn)智能的淡入淡出，豐富后期效果的同時，保持情節(jié)和情緒的穩(wěn)定性，完美適配 TTS 時長；在配樂設(shè)計層面，方案包含的小說智能配樂系統(tǒng)，能夠?yàn)椴煌}材匹配最佳 BGM，配樂與劇情情緒同步、章節(jié)收尾自然，可以很好地烘托劇情氛圍。

方案包含智能動態(tài)混音策略，做到了整體聽感的自然統(tǒng)一與音質(zhì)清晰度的最優(yōu)平衡。在智能動態(tài)平衡與響度控制上，方案能夠?qū)崟r分析人聲軌的能量與響度，使用側(cè)鏈壓縮技術(shù)通過人聲自適應(yīng)壓低 BGM 與環(huán)境音，讓對白始終清晰突出，并通過內(nèi)容感知的動態(tài)范圍與響度標(biāo)準(zhǔn)化處理，確保成品在不同設(shè)備上始終保持一致、自然、專業(yè)的聽感。

據(jù)了解，「AI 多人有聲劇」自動化方案未來將持續(xù)升級，覆蓋更多精品內(nèi)容，為更多用戶帶來優(yōu)質(zhì)的聽書體驗(yàn)。

文中音頻鏈接：https://mp.weixin.qq.com/s/g1A_U9R6oqxhL1t6tIz0BA

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.