![]()
當下的文本生成圖像擴散模型取得了長足進展,為圖像生成引入布局控制(Layout-to-Image, L2I)成為可能。
然而,現有布局到圖像生成方法在復雜場景下表現仍不理想:一方面,如何精確對齊給定布局并同時保持高畫質是巨大挑戰;另一方面,在擴散生成的逐步去噪過程中確保每個目標的位置與語義屬性不偏離也極為困難。此外,布局控制往往需要支持多模態條件(如文本、參考圖等信息),這進一步增加了技術復雜度。
現有方案各有不足:無訓練方法雖然無需改動基礎模型,但在復雜布局下效果顯著下降,且對超參數敏感、推理速度慢;有訓練方法通過額外模塊注入布局信息,但往往引入海量參數,訓練代價高昂。評估方面,傳統指標也存在偏差,難以準確衡量布局對齊程度。
這些挑戰和不足表明,實現穩健且高效的布局可控圖像生成亟需新的算法創新。
為此,小紅書智能創作 AIGC 團隊提出了 InstanceAssemble 框架,從架構和評測上全面應對上述難題,實現了在復雜布局條件下的精確圖像生成。
![]()
![]()
- 論文鏈接:https://arxiv.org/abs/2509.16691
- 項目主頁:https://github.com/FireRedTeam/InstanceAssemble
方法
![]()
InstanceAssemble 方法在架構上引入了級聯結構,將全局文本提示與實例級布局條件分階段處理。
具體而言,模型先利用原有 DiT 獲取全局圖像背景和整體語境,再通過新設計的實例組裝注意力模塊(Assemble-Attn)逐個整合各布局實例信息,實現局部精細控制。這樣的級聯架構確保了全局質量與局部對齊兩方面的兼顧,避免了同時處理所有實例可能產生的沖突。在實例組裝注意力中,每個目標實例的注意力計算僅在其對應圖像區域內進行,避免不同實例間互相干擾。
這種獨立注意力機制使模型能夠有效處理重疊或小物體等復雜布局情形,同時通過權重融合各實例特征,保持畫面整體協調。
此外,InstanceAssemble 使用LoRA 模塊進行輕量級模型適配。通過在基礎擴散模型中注入少量 LoRA 參數(僅增加基礎模型的 3% 的參數量左右),實現了對現有 DiT-based 文本生成圖像模型的靈活擴展。LoRA 的加入使模型在保留原有生成能力的同時,能夠高效地學習布局控制,不需要大規模重訓整個模型,并具備良好的兼容性(例如可方便地加載不同風格的 LoRA 權重)。
最后,該方法還支持多模態的布局輸入:每個實例既可由文本描述指定,也能利用額外的圖像信息(如參考圖片、深度圖、邊緣圖等)來豐富內容表示。
效果與對比
為了全面評估模型在復雜布局下的表現,作者構建了全新的基準數據集 DenseLayout,包含 5000 張圖像和約 90000 個實例(平均每圖 18 個目標),專門用于測試在高密度布局場景下的生成效果。同時提出了LGS (Layout Grounding Score) 作為評測新指標,將空間精度和語義一致性相結合,更準確地衡量生成圖像對布局指令的滿足程度。其中空間精度通過檢測目標位置與給定邊界框的 IoU 計算得到,語義一致性則利用視覺問答模型判斷顏色、材質、形狀等屬性匹配度。
![]()
![]()
在上述嚴苛評測下,InstanceAssemble 展現了卓越的性能。實驗結果表明,該方法在 DenseLayout 基準上的布局對齊指標 (mIoU) 顯著優于現有方法,綜合的 LGS 分數處于當前最優水平,同時全局圖像質量保持良好。特別是在稠密布局場景下(遠超訓練時≤10 個實例的密度),InstanceAssemble 依然能夠精確地將每個目標生成在指定位置,并正確呈現其語義屬性,驗證了模型的強泛化能力。
而對比方法在相同條件下往往出現漏生成、位置紊亂或風格不一致的問題,定性結果同樣佐證了這一點。
此外,得益于 LoRA 輕量架構,InstanceAssemble 相較其他有訓練方法在參數開銷和推理耗時上更具優勢,在效率與效果之間取得了良好平衡。
![]()
應用
InstanceAssemble 的設計在兼顧性能的同時,非常注重兼容擴展性。由于采用 LoRA 作為插件式適配,研究者和從業者可以方便地為模型引入不同風格遷移能力。例如,將經過特定畫風微調的 LoRA 模塊(如油畫風格、3d 風格等)加載到 InstanceAssemble 中,模型即可在保持布局精準對齊的前提下,生成帶有對應風格的圖像。
這種對多種風格 LoRA 的高兼容性使得模型能夠跨越不同域,進行跨風格、跨領域的布局圖像創作。
![]()
綜上所述,InstanceAssemble 通過其獨特的架構和模塊設計,實現了精細布局控制與高質量生成的有機結合,不僅在學術基準上取得領先表現,也展現出廣闊的應用潛力。未來,隨著更多樣的 LoRA 模塊和多模態信息融入,InstanceAssemble 可進一步拓展至智能排版、虛擬內容創作、數據增強等諸多領域,推動布局圖像生成的發展和落地應用。
最后,小紅書智能創作團隊正在火熱招人中!小紅書智能創作團隊以 AI 及多媒體技術為核心,主要負責小紅書發布側的產品研發,并向公司內部各業務線(社區守護、社交、直播、電商、商業化廣告)提供業界領先的內容創作、內容理解、互動體驗等技術能力及解決方案。團隊技術方向涵蓋多模態 AIGC 、計算機視覺、語言語音、編輯渲染、算法工程等。
本篇工作著手于圖像可控生成,主要應用在小紅書文字發布等功能的圖像素材生產中。
團隊最近兩年累積發表了 30 余篇相關領域頂會 or 頂刊論文,在技術上有 InstantID、Storymaker、FireRedTTS、FireRedASR 等知名技術開源代表作,在業務上也做出了語音評論、文字功能等爆款功能。
長期歡迎優秀校招、社招、實習生的加入,Let‘s work together!有意向的同學請聯系 sunshuang1@xiaohongshu.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.