![]()
新智元報道
編輯:LRST
【新智元導讀】LayerComposer革新了個性化圖像生成,讓用戶像在Photoshop里一樣自由操控元素位置、大小,解決傳統方法交互性與多主體擴展難題,實現更自然、高效的創作,推動個性化生成邁向主動交互新階段。
大型擴散模型(如 Stable Diffusion)讓我們能夠從文字生成高保真的圖像。但當用戶希望「生成我和我的朋友們在不同場景中的照片」時,現有的個性化生成方法(如 DreamBooth、IP-Adapter)仍面臨兩個根本問題:
缺乏交互性:無法自由控制人物的空間位置、大小與關系。
難以擴展到多主體:每多一個人,內存和算力就線性增長。
![]()
LayerComposer的目標,就是要打破這兩大限制,讓用戶可以直觀地控制在哪里放置什么樣的元素,進行可控且高效的個性化生成。
![]()
項目地址:https://snap-research.github.io/layercomposer/
論文地址:https://arxiv.org/abs/2510.20820
「一張由雪人和三位女孩組成的合照」—— 你可以像在Photoshop里一樣,放置、縮放、鎖定角色,然后讓模型完成剩下的工作。
LayerComposer的三大設計
![]()
分層畫布(Layered Canvas)
每個人物、物體或背景都放在獨立的RGBA層中(包含透明通道的圖片),這樣可以:
避免人物遮擋導致的信息丟失;
通過透明裁剪(Transparent Latent Pruning)顯著降低計算量;
支持任意數量的主體組合。
類似于在Photoshop里,每一層就是一個獨立的角色,隨意移動、縮放或刪除。
鎖定機制(Locking Mechanism)
每一層都可以選擇「鎖定(Lock)」或「解鎖(Unlock)」:
鎖定層 → 模型必須高保真地保留該層,僅允許細微的光照調整;
解鎖層 → 模型可以根據文字描述自由生成姿態、表情或交互。
你可以鎖定背景,讓人物隨提示變化,也可以鎖定一個角色姿勢,生成其他人圍繞他互動。
這種「可選保真度」讓 LayerComposer 比以往方法更接近人類的創作流程。
模型–數據共設計(Model–Data Co-Design)
![]()
LayerComposer的鎖定機制無需修改網絡結構。
研究人員通過「位置嵌入」(positional embedding)與「數據采樣策略」共同實現:
鎖定層共享相同的空間編碼;
解鎖層使用獨立的編碼,以避免重疊混淆。
這種輕量化設計,可以在現有擴散模型(如 FLUX Kontext)上直接適配。
實驗結果
多主體、高保真、強可控
![]()
四人場景(4P)
![]()
在四人同框的任務中,LayerComposer的生成質量顯著優于 FLUX Kontext、Qwen-Image-Edit、Gemini 2.5 Flash Image等模型,能在存在遮擋的情況下保持人物結構完整,并忠實地還原每個人物。
雙人交互(2P)
![]()
在需要兩人互動的場景(如「一起吃飯」、「握手」)中,LayerComposer能生成自然的姿態與空間關系,不再出現「復制粘貼」或「少人」的問題,用戶偏好達到83.3%,遠超OmniGen2等最新模型。
單人個性化(1P)
![]()
即使只生成單人肖像,LayerComposer仍展示出優越的表現:
在保持身份一致的同時,能靈活生成不同表情與動作(如笑、閉眼、吃飯等),避免「貼臉」效果。
消融實驗
鎖定與分層的作用
![]()
鎖定機制(Locking Mechanism)
為了展示鎖定機制的效果,研究人員逐步對每一層輸入進行鎖定。
被鎖定的層會保留該人物的姿態——模型只會在此基礎上進行「外延繪制」(outpainting)和輕微的細節光照調整。
需要強調的是,這與「掩膜推理(masked inference)」不同:在掩膜推理中,被遮擋的區域完全不會被更新。
另外,在實驗設置中,未鎖定的層會根據已鎖定的內容和整體場景上下文靈活調整,從而實現自然的協調與融合。
分層畫布(Layered Canvas)
如果不使用分層畫布,模型就只能在訓練中以單張拼貼圖像(collage)作為條件輸入,如圖中 「Inputs」 一列所示。
可以看到,在「w/o layered canvas」(無分層畫布)的結果中,由于拼貼重疊造成的遮擋,會導致信息缺失。
例如,左邊女子圣誕帽上的球被遮擋后在生成結果中完全消失。
相比之下,提出的分層畫布能夠顯式地處理遮擋問題,從而避免此類偽影(artifacts)和細節丟失。
![]()
通過在Layered Cavas中調整每一個subject在各自layer的位置,LayerComposer支持直觀的空間布局調控。
總結
LayerComposer讓多主體個性化生成從「被動輸入」邁向「主動創作」。
用戶不再只是輸入文本,而是真正參與到構圖過程中。
從DreamBooth到LayerComposer,個性化生成,終于有了交互的靈魂。
未來展望
盡管LayerComposer帶來了交互式個性化的新范式,但仍存在一些挑戰。
在需要「復雜物理推理」(如「坐在輸入圖片椅子上」)的場景中可能失敗。
未來,研究人員計劃讓LayerComposer支持更強的理解能力和更多模態,以促進人機協同創作:
結合大語言與視覺模型(VLMs)的理解能力,實現語義級別的自動布局與構圖建議;
支持視頻級別的分層個性化,讓交互式創作從靜態圖像走向動態場景;
探索生成與編輯的統一界面,讓用戶在同一畫布上無縫地修改、添加與再生成內容。
這種以「分層畫布」為核心的交互式個性化范式,將成為下一代生成式創作工具的重要方向。
參考資料:
https://arxiv.org/abs/2510.20820
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.