小紅書智創(chuàng)AIGC團隊提出布局控制生成新算法InstanceAssemble

2025-11-03 17:44:18　來源: 機器之心Pro

北京舉報

分享至

當(dāng)下的文本生成圖像擴散模型取得了長足進展，為圖像生成引入布局控制（Layout-to-Image, L2I）成為可能。

然而，現(xiàn)有布局到圖像生成方法在復(fù)雜場景下表現(xiàn)仍不理想：一方面，如何精確對齊給定布局并同時保持高畫質(zhì)是巨大挑戰(zhàn)；另一方面，在擴散生成的逐步去噪過程中確保每個目標(biāo)的位置與語義屬性不偏離也極為困難。此外，布局控制往往需要支持多模態(tài)條件（如文本、參考圖等信息），這進一步增加了技術(shù)復(fù)雜度。

現(xiàn)有方案各有不足：無訓(xùn)練方法雖然無需改動基礎(chǔ)模型，但在復(fù)雜布局下效果顯著下降，且對超參數(shù)敏感、推理速度慢；有訓(xùn)練方法通過額外模塊注入布局信息，但往往引入海量參數(shù)，訓(xùn)練代價高昂。評估方面，傳統(tǒng)指標(biāo)也存在偏差，難以準(zhǔn)確衡量布局對齊程度。

這些挑戰(zhàn)和不足表明，實現(xiàn)穩(wěn)健且高效的布局可控圖像生成亟需新的算法創(chuàng)新。

為此，小紅書智能創(chuàng)作 AIGC 團隊提出了 InstanceAssemble 框架，從架構(gòu)和評測上全面應(yīng)對上述難題，實現(xiàn)了在復(fù)雜布局條件下的精確圖像生成。

論文鏈接：https://arxiv.org/abs/2509.16691
項目主頁：https://github.com/FireRedTeam/InstanceAssemble

方法

InstanceAssemble 方法在架構(gòu)上引入了級聯(lián)結(jié)構(gòu)，將全局文本提示與實例級布局條件分階段處理。

具體而言，模型先利用原有 DiT 獲取全局圖像背景和整體語境，再通過新設(shè)計的實例組裝注意力模塊（Assemble-Attn）逐個整合各布局實例信息，實現(xiàn)局部精細(xì)控制。這樣的級聯(lián)架構(gòu)確保了全局質(zhì)量與局部對齊兩方面的兼顧，避免了同時處理所有實例可能產(chǎn)生的沖突。在實例組裝注意力中，每個目標(biāo)實例的注意力計算僅在其對應(yīng)圖像區(qū)域內(nèi)進行，避免不同實例間互相干擾。

這種獨立注意力機制使模型能夠有效處理重疊或小物體等復(fù)雜布局情形，同時通過權(quán)重融合各實例特征，保持畫面整體協(xié)調(diào)。

此外，InstanceAssemble 使用LoRA 模塊進行輕量級模型適配。通過在基礎(chǔ)擴散模型中注入少量 LoRA 參數(shù)（僅增加基礎(chǔ)模型的 3% 的參數(shù)量左右），實現(xiàn)了對現(xiàn)有 DiT-based 文本生成圖像模型的靈活擴展。LoRA 的加入使模型在保留原有生成能力的同時，能夠高效地學(xué)習(xí)布局控制，不需要大規(guī)模重訓(xùn)整個模型，并具備良好的兼容性（例如可方便地加載不同風(fēng)格的 LoRA 權(quán)重）。

最后，該方法還支持多模態(tài)的布局輸入：每個實例既可由文本描述指定，也能利用額外的圖像信息（如參考圖片、深度圖、邊緣圖等）來豐富內(nèi)容表示。

效果與對比

為了全面評估模型在復(fù)雜布局下的表現(xiàn)，作者構(gòu)建了全新的基準(zhǔn)數(shù)據(jù)集 DenseLayout，包含 5000 張圖像和約 90000 個實例（平均每圖 18 個目標(biāo)），專門用于測試在高密度布局場景下的生成效果。同時提出了LGS (Layout Grounding Score) 作為評測新指標(biāo)，將空間精度和語義一致性相結(jié)合，更準(zhǔn)確地衡量生成圖像對布局指令的滿足程度。其中空間精度通過檢測目標(biāo)位置與給定邊界框的 IoU 計算得到，語義一致性則利用視覺問答模型判斷顏色、材質(zhì)、形狀等屬性匹配度。

在上述嚴(yán)苛評測下，InstanceAssemble 展現(xiàn)了卓越的性能。實驗結(jié)果表明，該方法在 DenseLayout 基準(zhǔn)上的布局對齊指標(biāo) (mIoU) 顯著優(yōu)于現(xiàn)有方法，綜合的 LGS 分?jǐn)?shù)處于當(dāng)前最優(yōu)水平，同時全局圖像質(zhì)量保持良好。特別是在稠密布局場景下（遠(yuǎn)超訓(xùn)練時≤10 個實例的密度），InstanceAssemble 依然能夠精確地將每個目標(biāo)生成在指定位置，并正確呈現(xiàn)其語義屬性，驗證了模型的強泛化能力。

而對比方法在相同條件下往往出現(xiàn)漏生成、位置紊亂或風(fēng)格不一致的問題，定性結(jié)果同樣佐證了這一點。

此外，得益于 LoRA 輕量架構(gòu)，InstanceAssemble 相較其他有訓(xùn)練方法在參數(shù)開銷和推理耗時上更具優(yōu)勢，在效率與效果之間取得了良好平衡。

應(yīng)用

InstanceAssemble 的設(shè)計在兼顧性能的同時，非常注重兼容擴展性。由于采用 LoRA 作為插件式適配，研究者和從業(yè)者可以方便地為模型引入不同風(fēng)格遷移能力。例如，將經(jīng)過特定畫風(fēng)微調(diào)的 LoRA 模塊（如油畫風(fēng)格、3d 風(fēng)格等）加載到 InstanceAssemble 中，模型即可在保持布局精準(zhǔn)對齊的前提下，生成帶有對應(yīng)風(fēng)格的圖像。

這種對多種風(fēng)格 LoRA 的高兼容性使得模型能夠跨越不同域，進行跨風(fēng)格、跨領(lǐng)域的布局圖像創(chuàng)作。

綜上所述，InstanceAssemble 通過其獨特的架構(gòu)和模塊設(shè)計，實現(xiàn)了精細(xì)布局控制與高質(zhì)量生成的有機結(jié)合，不僅在學(xué)術(shù)基準(zhǔn)上取得領(lǐng)先表現(xiàn)，也展現(xiàn)出廣闊的應(yīng)用潛力。未來，隨著更多樣的 LoRA 模塊和多模態(tài)信息融入，InstanceAssemble 可進一步拓展至智能排版、虛擬內(nèi)容創(chuàng)作、數(shù)據(jù)增強等諸多領(lǐng)域，推動布局圖像生成的發(fā)展和落地應(yīng)用。

最后，小紅書智能創(chuàng)作團隊正在火熱招人中！小紅書智能創(chuàng)作團隊以 AI 及多媒體技術(shù)為核心，主要負(fù)責(zé)小紅書發(fā)布側(cè)的產(chǎn)品研發(fā)，并向公司內(nèi)部各業(yè)務(wù)線（社區(qū)守護、社交、直播、電商、商業(yè)化廣告）提供業(yè)界領(lǐng)先的內(nèi)容創(chuàng)作、內(nèi)容理解、互動體驗等技術(shù)能力及解決方案。團隊技術(shù)方向涵蓋多模態(tài) AIGC 、計算機視覺、語言語音、編輯渲染、算法工程等。

本篇工作著手于圖像可控生成，主要應(yīng)用在小紅書文字發(fā)布等功能的圖像素材生產(chǎn)中。

團隊最近兩年累積發(fā)表了 30 余篇相關(guān)領(lǐng)域頂會 or 頂刊論文，在技術(shù)上有 InstantID、Storymaker、FireRedTTS、FireRedASR 等知名技術(shù)開源代表作，在業(yè)務(wù)上也做出了語音評論、文字功能等爆款功能。

長期歡迎優(yōu)秀校招、社招、實習(xí)生的加入，Let‘s work together！有意向的同學(xué)請聯(lián)系 sunshuang1@xiaohongshu.com

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.