![]()
當(dāng)下的文本生成圖像擴散模型取得了長足進展,為圖像生成引入布局控制(Layout-to-Image, L2I)成為可能。
然而,現(xiàn)有布局到圖像生成方法在復(fù)雜場景下表現(xiàn)仍不理想:一方面,如何精確對齊給定布局并同時保持高畫質(zhì)是巨大挑戰(zhàn);另一方面,在擴散生成的逐步去噪過程中確保每個目標(biāo)的位置與語義屬性不偏離也極為困難。此外,布局控制往往需要支持多模態(tài)條件(如文本、參考圖等信息),這進一步增加了技術(shù)復(fù)雜度。
現(xiàn)有方案各有不足:無訓(xùn)練方法雖然無需改動基礎(chǔ)模型,但在復(fù)雜布局下效果顯著下降,且對超參數(shù)敏感、推理速度慢;有訓(xùn)練方法通過額外模塊注入布局信息,但往往引入海量參數(shù),訓(xùn)練代價高昂。評估方面,傳統(tǒng)指標(biāo)也存在偏差,難以準(zhǔn)確衡量布局對齊程度。
這些挑戰(zhàn)和不足表明,實現(xiàn)穩(wěn)健且高效的布局可控圖像生成亟需新的算法創(chuàng)新。
為此,小紅書智能創(chuàng)作 AIGC 團隊提出了 InstanceAssemble 框架,從架構(gòu)和評測上全面應(yīng)對上述難題,實現(xiàn)了在復(fù)雜布局條件下的精確圖像生成。
![]()
![]()
- 論文鏈接:https://arxiv.org/abs/2509.16691
- 項目主頁:https://github.com/FireRedTeam/InstanceAssemble
方法
![]()
InstanceAssemble 方法在架構(gòu)上引入了級聯(lián)結(jié)構(gòu),將全局文本提示與實例級布局條件分階段處理。
具體而言,模型先利用原有 DiT 獲取全局圖像背景和整體語境,再通過新設(shè)計的實例組裝注意力模塊(Assemble-Attn)逐個整合各布局實例信息,實現(xiàn)局部精細(xì)控制。這樣的級聯(lián)架構(gòu)確保了全局質(zhì)量與局部對齊兩方面的兼顧,避免了同時處理所有實例可能產(chǎn)生的沖突。在實例組裝注意力中,每個目標(biāo)實例的注意力計算僅在其對應(yīng)圖像區(qū)域內(nèi)進行,避免不同實例間互相干擾。
這種獨立注意力機制使模型能夠有效處理重疊或小物體等復(fù)雜布局情形,同時通過權(quán)重融合各實例特征,保持畫面整體協(xié)調(diào)。
此外,InstanceAssemble 使用LoRA 模塊進行輕量級模型適配。通過在基礎(chǔ)擴散模型中注入少量 LoRA 參數(shù)(僅增加基礎(chǔ)模型的 3% 的參數(shù)量左右),實現(xiàn)了對現(xiàn)有 DiT-based 文本生成圖像模型的靈活擴展。LoRA 的加入使模型在保留原有生成能力的同時,能夠高效地學(xué)習(xí)布局控制,不需要大規(guī)模重訓(xùn)整個模型,并具備良好的兼容性(例如可方便地加載不同風(fēng)格的 LoRA 權(quán)重)。
最后,該方法還支持多模態(tài)的布局輸入:每個實例既可由文本描述指定,也能利用額外的圖像信息(如參考圖片、深度圖、邊緣圖等)來豐富內(nèi)容表示。
效果與對比
為了全面評估模型在復(fù)雜布局下的表現(xiàn),作者構(gòu)建了全新的基準(zhǔn)數(shù)據(jù)集 DenseLayout,包含 5000 張圖像和約 90000 個實例(平均每圖 18 個目標(biāo)),專門用于測試在高密度布局場景下的生成效果。同時提出了LGS (Layout Grounding Score) 作為評測新指標(biāo),將空間精度和語義一致性相結(jié)合,更準(zhǔn)確地衡量生成圖像對布局指令的滿足程度。其中空間精度通過檢測目標(biāo)位置與給定邊界框的 IoU 計算得到,語義一致性則利用視覺問答模型判斷顏色、材質(zhì)、形狀等屬性匹配度。
![]()
![]()
在上述嚴(yán)苛評測下,InstanceAssemble 展現(xiàn)了卓越的性能。實驗結(jié)果表明,該方法在 DenseLayout 基準(zhǔn)上的布局對齊指標(biāo) (mIoU) 顯著優(yōu)于現(xiàn)有方法,綜合的 LGS 分?jǐn)?shù)處于當(dāng)前最優(yōu)水平,同時全局圖像質(zhì)量保持良好。特別是在稠密布局場景下(遠(yuǎn)超訓(xùn)練時≤10 個實例的密度),InstanceAssemble 依然能夠精確地將每個目標(biāo)生成在指定位置,并正確呈現(xiàn)其語義屬性,驗證了模型的強泛化能力。
而對比方法在相同條件下往往出現(xiàn)漏生成、位置紊亂或風(fēng)格不一致的問題,定性結(jié)果同樣佐證了這一點。
此外,得益于 LoRA 輕量架構(gòu),InstanceAssemble 相較其他有訓(xùn)練方法在參數(shù)開銷和推理耗時上更具優(yōu)勢,在效率與效果之間取得了良好平衡。
![]()
應(yīng)用
InstanceAssemble 的設(shè)計在兼顧性能的同時,非常注重兼容擴展性。由于采用 LoRA 作為插件式適配,研究者和從業(yè)者可以方便地為模型引入不同風(fēng)格遷移能力。例如,將經(jīng)過特定畫風(fēng)微調(diào)的 LoRA 模塊(如油畫風(fēng)格、3d 風(fēng)格等)加載到 InstanceAssemble 中,模型即可在保持布局精準(zhǔn)對齊的前提下,生成帶有對應(yīng)風(fēng)格的圖像。
這種對多種風(fēng)格 LoRA 的高兼容性使得模型能夠跨越不同域,進行跨風(fēng)格、跨領(lǐng)域的布局圖像創(chuàng)作。
![]()
綜上所述,InstanceAssemble 通過其獨特的架構(gòu)和模塊設(shè)計,實現(xiàn)了精細(xì)布局控制與高質(zhì)量生成的有機結(jié)合,不僅在學(xué)術(shù)基準(zhǔn)上取得領(lǐng)先表現(xiàn),也展現(xiàn)出廣闊的應(yīng)用潛力。未來,隨著更多樣的 LoRA 模塊和多模態(tài)信息融入,InstanceAssemble 可進一步拓展至智能排版、虛擬內(nèi)容創(chuàng)作、數(shù)據(jù)增強等諸多領(lǐng)域,推動布局圖像生成的發(fā)展和落地應(yīng)用。
最后,小紅書智能創(chuàng)作團隊正在火熱招人中!小紅書智能創(chuàng)作團隊以 AI 及多媒體技術(shù)為核心,主要負(fù)責(zé)小紅書發(fā)布側(cè)的產(chǎn)品研發(fā),并向公司內(nèi)部各業(yè)務(wù)線(社區(qū)守護、社交、直播、電商、商業(yè)化廣告)提供業(yè)界領(lǐng)先的內(nèi)容創(chuàng)作、內(nèi)容理解、互動體驗等技術(shù)能力及解決方案。團隊技術(shù)方向涵蓋多模態(tài) AIGC 、計算機視覺、語言語音、編輯渲染、算法工程等。
本篇工作著手于圖像可控生成,主要應(yīng)用在小紅書文字發(fā)布等功能的圖像素材生產(chǎn)中。
團隊最近兩年累積發(fā)表了 30 余篇相關(guān)領(lǐng)域頂會 or 頂刊論文,在技術(shù)上有 InstantID、Storymaker、FireRedTTS、FireRedASR 等知名技術(shù)開源代表作,在業(yè)務(wù)上也做出了語音評論、文字功能等爆款功能。
長期歡迎優(yōu)秀校招、社招、實習(xí)生的加入,Let‘s work together!有意向的同學(xué)請聯(lián)系 sunshuang1@xiaohongshu.com
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.