<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      小紅書智創(chuàng)AIGC團隊提出布局控制生成新算法InstanceAssemble

      0
      分享至



      當(dāng)下的文本生成圖像擴散模型取得了長足進展,為圖像生成引入布局控制(Layout-to-Image, L2I)成為可能。

      然而,現(xiàn)有布局到圖像生成方法在復(fù)雜場景下表現(xiàn)仍不理想:一方面,如何精確對齊給定布局并同時保持高畫質(zhì)是巨大挑戰(zhàn);另一方面,在擴散生成的逐步去噪過程中確保每個目標(biāo)的位置與語義屬性不偏離也極為困難。此外,布局控制往往需要支持多模態(tài)條件(如文本、參考圖等信息),這進一步增加了技術(shù)復(fù)雜度。

      現(xiàn)有方案各有不足:無訓(xùn)練方法雖然無需改動基礎(chǔ)模型,但在復(fù)雜布局下效果顯著下降,且對超參數(shù)敏感、推理速度慢;有訓(xùn)練方法通過額外模塊注入布局信息,但往往引入海量參數(shù),訓(xùn)練代價高昂。評估方面,傳統(tǒng)指標(biāo)也存在偏差,難以準(zhǔn)確衡量布局對齊程度。

      這些挑戰(zhàn)和不足表明,實現(xiàn)穩(wěn)健且高效的布局可控圖像生成亟需新的算法創(chuàng)新。

      為此,小紅書智能創(chuàng)作 AIGC 團隊提出了 InstanceAssemble 框架,從架構(gòu)和評測上全面應(yīng)對上述難題,實現(xiàn)了在復(fù)雜布局條件下的精確圖像生成。





      • 論文鏈接:https://arxiv.org/abs/2509.16691
      • 項目主頁:https://github.com/FireRedTeam/InstanceAssemble

      方法



      InstanceAssemble 方法在架構(gòu)上引入了級聯(lián)結(jié)構(gòu),將全局文本提示與實例級布局條件分階段處理。

      具體而言,模型先利用原有 DiT 獲取全局圖像背景和整體語境,再通過新設(shè)計的實例組裝注意力模塊(Assemble-Attn)逐個整合各布局實例信息,實現(xiàn)局部精細(xì)控制。這樣的級聯(lián)架構(gòu)確保了全局質(zhì)量與局部對齊兩方面的兼顧,避免了同時處理所有實例可能產(chǎn)生的沖突。在實例組裝注意力中,每個目標(biāo)實例的注意力計算僅在其對應(yīng)圖像區(qū)域內(nèi)進行,避免不同實例間互相干擾。

      這種獨立注意力機制使模型能夠有效處理重疊或小物體等復(fù)雜布局情形,同時通過權(quán)重融合各實例特征,保持畫面整體協(xié)調(diào)。

      此外,InstanceAssemble 使用LoRA 模塊進行輕量級模型適配。通過在基礎(chǔ)擴散模型中注入少量 LoRA 參數(shù)(僅增加基礎(chǔ)模型的 3% 的參數(shù)量左右),實現(xiàn)了對現(xiàn)有 DiT-based 文本生成圖像模型的靈活擴展。LoRA 的加入使模型在保留原有生成能力的同時,能夠高效地學(xué)習(xí)布局控制,不需要大規(guī)模重訓(xùn)整個模型,并具備良好的兼容性(例如可方便地加載不同風(fēng)格的 LoRA 權(quán)重)。

      最后,該方法還支持多模態(tài)的布局輸入:每個實例既可由文本描述指定,也能利用額外的圖像信息(如參考圖片、深度圖、邊緣圖等)來豐富內(nèi)容表示。

      效果與對比

      為了全面評估模型在復(fù)雜布局下的表現(xiàn),作者構(gòu)建了全新的基準(zhǔn)數(shù)據(jù)集 DenseLayout,包含 5000 張圖像和約 90000 個實例(平均每圖 18 個目標(biāo)),專門用于測試在高密度布局場景下的生成效果。同時提出了LGS (Layout Grounding Score) 作為評測新指標(biāo),將空間精度和語義一致性相結(jié)合,更準(zhǔn)確地衡量生成圖像對布局指令的滿足程度。其中空間精度通過檢測目標(biāo)位置與給定邊界框的 IoU 計算得到,語義一致性則利用視覺問答模型判斷顏色、材質(zhì)、形狀等屬性匹配度。





      在上述嚴(yán)苛評測下,InstanceAssemble 展現(xiàn)了卓越的性能。實驗結(jié)果表明,該方法在 DenseLayout 基準(zhǔn)上的布局對齊指標(biāo) (mIoU) 顯著優(yōu)于現(xiàn)有方法,綜合的 LGS 分?jǐn)?shù)處于當(dāng)前最優(yōu)水平,同時全局圖像質(zhì)量保持良好。特別是在稠密布局場景下(遠(yuǎn)超訓(xùn)練時≤10 個實例的密度),InstanceAssemble 依然能夠精確地將每個目標(biāo)生成在指定位置,并正確呈現(xiàn)其語義屬性,驗證了模型的強泛化能力。

      而對比方法在相同條件下往往出現(xiàn)漏生成、位置紊亂或風(fēng)格不一致的問題,定性結(jié)果同樣佐證了這一點。

      此外,得益于 LoRA 輕量架構(gòu),InstanceAssemble 相較其他有訓(xùn)練方法在參數(shù)開銷和推理耗時上更具優(yōu)勢,在效率與效果之間取得了良好平衡。



      應(yīng)用

      InstanceAssemble 的設(shè)計在兼顧性能的同時,非常注重兼容擴展性。由于采用 LoRA 作為插件式適配,研究者和從業(yè)者可以方便地為模型引入不同風(fēng)格遷移能力。例如,將經(jīng)過特定畫風(fēng)微調(diào)的 LoRA 模塊(如油畫風(fēng)格、3d 風(fēng)格等)加載到 InstanceAssemble 中,模型即可在保持布局精準(zhǔn)對齊的前提下,生成帶有對應(yīng)風(fēng)格的圖像。

      這種對多種風(fēng)格 LoRA 的高兼容性使得模型能夠跨越不同域,進行跨風(fēng)格、跨領(lǐng)域的布局圖像創(chuàng)作。



      綜上所述,InstanceAssemble 通過其獨特的架構(gòu)和模塊設(shè)計,實現(xiàn)了精細(xì)布局控制與高質(zhì)量生成的有機結(jié)合,不僅在學(xué)術(shù)基準(zhǔn)上取得領(lǐng)先表現(xiàn),也展現(xiàn)出廣闊的應(yīng)用潛力。未來,隨著更多樣的 LoRA 模塊和多模態(tài)信息融入,InstanceAssemble 可進一步拓展至智能排版、虛擬內(nèi)容創(chuàng)作、數(shù)據(jù)增強等諸多領(lǐng)域,推動布局圖像生成的發(fā)展和落地應(yīng)用。

      最后,小紅書智能創(chuàng)作團隊正在火熱招人中!小紅書智能創(chuàng)作團隊以 AI 及多媒體技術(shù)為核心,主要負(fù)責(zé)小紅書發(fā)布側(cè)的產(chǎn)品研發(fā),并向公司內(nèi)部各業(yè)務(wù)線(社區(qū)守護、社交、直播、電商、商業(yè)化廣告)提供業(yè)界領(lǐng)先的內(nèi)容創(chuàng)作、內(nèi)容理解、互動體驗等技術(shù)能力及解決方案。團隊技術(shù)方向涵蓋多模態(tài) AIGC 、計算機視覺、語言語音、編輯渲染、算法工程等。

      本篇工作著手于圖像可控生成,主要應(yīng)用在小紅書文字發(fā)布等功能的圖像素材生產(chǎn)中。

      團隊最近兩年累積發(fā)表了 30 余篇相關(guān)領(lǐng)域頂會 or 頂刊論文,在技術(shù)上有 InstantID、Storymaker、FireRedTTS、FireRedASR 等知名技術(shù)開源代表作,在業(yè)務(wù)上也做出了語音評論、文字功能等爆款功能。

      長期歡迎優(yōu)秀校招、社招、實習(xí)生的加入,Let‘s work together!有意向的同學(xué)請聯(lián)系 sunshuang1@xiaohongshu.com

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      創(chuàng)業(yè)板指漲逾1% 存儲芯片再度走強

      創(chuàng)業(yè)板指漲逾1% 存儲芯片再度走強

      財聯(lián)社
      2025-11-06 09:36:18
      3-0中國女足僅8天,朝鮮女足橫掃巴西隊,女足世界杯決賽時間出爐

      3-0中國女足僅8天,朝鮮女足橫掃巴西隊,女足世界杯決賽時間出爐

      大秦壁虎白話體育
      2025-11-06 08:30:04
      首臺“京東汽車”下線,超8成用戶期待價格低于10萬

      首臺“京東汽車”下線,超8成用戶期待價格低于10萬

      藍(lán)鯨新聞
      2025-11-05 12:45:03
      為什么電影里很多黑幫老大堅決不做毒品生意?網(wǎng)友評論引萬千共鳴

      為什么電影里很多黑幫老大堅決不做毒品生意?網(wǎng)友評論引萬千共鳴

      小椰的奶奶
      2025-10-27 02:51:34
      400名飛行員集體跳槽中國,揚言無論如何都不回國,誓為中國效力

      400名飛行員集體跳槽中國,揚言無論如何都不回國,誓為中國效力

      朔方瞭望
      2025-11-06 09:08:17
      網(wǎng)紅模仿李湘沖上熱搜,穿紅衣挺大肚,網(wǎng)友調(diào)侃這是李湘她姐李逵

      網(wǎng)紅模仿李湘沖上熱搜,穿紅衣挺大肚,網(wǎng)友調(diào)侃這是李湘她姐李逵

      娛樂看阿敞
      2025-11-04 16:09:08
      分享解剖學(xué)知識,破除多年來的G點謠傳

      分享解剖學(xué)知識,破除多年來的G點謠傳

      遠(yuǎn)方青木
      2025-10-25 00:06:11
      突發(fā)!東莞30年知名燈飾大廠,被裁定破產(chǎn)!

      突發(fā)!東莞30年知名燈飾大廠,被裁定破產(chǎn)!

      大照明
      2025-11-06 08:05:22
      看片自慰也是一種出軌嗎?!

      看片自慰也是一種出軌嗎?!

      性學(xué)研究僧
      2025-11-05 22:23:38
      蔣萬安再次亮明立場,堅持反對兩岸統(tǒng)一,鄭麗文也讓大陸寒心了

      蔣萬安再次亮明立場,堅持反對兩岸統(tǒng)一,鄭麗文也讓大陸寒心了

      養(yǎng)牛的大昆
      2025-11-05 19:36:38
      一夜暴漲超600%!又有中概股爆發(fā)

      一夜暴漲超600%!又有中概股爆發(fā)

      數(shù)據(jù)寶
      2025-11-06 11:07:08
      價格翻倍的硬盤、高漲的內(nèi)存,還有普漲的CPU,這究竟是怎么了

      價格翻倍的硬盤、高漲的內(nèi)存,還有普漲的CPU,這究竟是怎么了

      智趣東西
      2025-11-05 10:01:48
      大戰(zhàn)一觸即發(fā),馬杜羅請求中國軍援,中方回應(yīng)有玄機,美國要懂事

      大戰(zhàn)一觸即發(fā),馬杜羅請求中國軍援,中方回應(yīng)有玄機,美國要懂事

      博覽歷史
      2025-11-05 18:32:57
      “大尺度”女星的瓜!

      “大尺度”女星的瓜!

      文刀萬
      2025-05-23 06:05:02
      毛主席贈與尼克松12個字,美國研究了50年,至今日才明白其中真諦

      毛主席贈與尼克松12個字,美國研究了50年,至今日才明白其中真諦

      不知名歷史家
      2025-10-19 16:57:57
      江一燕,官宣離婚!

      江一燕,官宣離婚!

      黎兜兜
      2025-11-05 21:50:24
      湖南某三甲醫(yī)院美女眼科主任與副院長的瓜

      湖南某三甲醫(yī)院美女眼科主任與副院長的瓜

      筆桿論道
      2025-11-05 22:02:55
      恐怖53米!美國UPS貨機墜毀致9人死亡,砸向石油廠引爆巨大火球

      恐怖53米!美國UPS貨機墜毀致9人死亡,砸向石油廠引爆巨大火球

      閱識
      2025-11-06 06:27:28
      歐洲芯片告急!中方開條件卡脖子:想買安世芯片,就恢復(fù)CEO職務(wù)

      歐洲芯片告急!中方開條件卡脖子:想買安世芯片,就恢復(fù)CEO職務(wù)

      紀(jì)中百大事
      2025-11-06 10:02:57
      一位常年和老虎打交道的護林員告訴我:90%的人都不知道

      一位常年和老虎打交道的護林員告訴我:90%的人都不知道

      忠于法紀(jì)
      2025-10-29 09:24:43
      2025-11-06 11:39:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      11656文章數(shù) 142499關(guān)注度
      往期回顧 全部

      科技要聞

      蘋果“認(rèn)輸”!曝每年10億美元租用谷歌AI

      頭條要聞

      美最高法院就關(guān)稅政策合法性展開辯論 美財長罕見出席

      頭條要聞

      美最高法院就關(guān)稅政策合法性展開辯論 美財長罕見出席

      體育要聞

      贏下皇馬,會是利物浦的轉(zhuǎn)折點嗎?

      娛樂要聞

      白百何好友揭露爭獎細(xì)節(jié)

      財經(jīng)要聞

      特朗普關(guān)稅遭美國高院大法官輪番質(zhì)疑

      汽車要聞

      方向盤?不存在的 特斯拉 Cybercab亞太首秀

      態(tài)度原創(chuàng)

      時尚
      旅游
      本地
      手機
      軍事航空

      中國色特別策劃 | 故宮技藝與古意新生

      旅游要聞

      視頻丨智利冰川游從業(yè)者無奈見證消失中的冰川

      本地新聞

      這屆干飯人,已經(jīng)把博物館吃成了食堂

      手機要聞

      OV新款旗艦賣爆,天璣9500何以實現(xiàn)性能與能效的完美平衡?

      軍事要聞

      美國發(fā)射洲際彈道導(dǎo)彈 俄方回應(yīng)

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 亚洲超碰97无码中文字幕| 亚洲精品久久久久久无码色欲四季| 成人性生交大片免费看r老牛网站 中文字幕一区二区三区四区五区 久久久久久毛片免费播放 | 亚洲卡1卡2卡新区网站| 国产av综合一区二区三区| 丝袜国产一区av在线观看| 欧美牲交a欧美牲交aⅴ免费真| 亚洲v欧美v日韩v国产v| 国模肉肉视频一区二区三区| 精品亚洲国产成人av| 亚洲精品一区二区动漫| 亚洲人成人网站色www| 韩国V欧美V亚洲V日本V| 国产精品爱久久久久久久电影| 亚洲综合一区二区三区| 国产乱人伦真实精品视频| 新余市| 亚洲国产精品毛片在线看| 国产对白老熟女正在播放| 深夜国产成人福利在线观看| 无码专区人妻系列日韩精品| 内射视频福利在线观看| 亚洲av熟女国产一二三| h无码精品3d动漫在线观看| 男人的天堂av社区在线| 久久99久国产精品66| 大香伊蕉在人线国产免费| 亚洲国产免费图区在线视频| 成在线人免费| 国产精品一区二区不卡91| 国产丰满乱子伦无码专区| 老色鬼在线精品视频| 日本边添边摸边做边爱喷水| 思思99热精品在线| 国产一级黄色片在线播放| 亚洲av永久无码精品水牛影视| 亚洲一区二区精品另类| 亚洲成人精品一区二区中| 国产精品偷伦费观看一次 | 日本久久一区二区免高清| 国产不卡av一区二区|