<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      Being-VL的視覺BPE路線:把「看」和「說」真正統一起來

      0
      分享至



      在多模態模型里,CLIP-style encoder往往把視覺表征過早地拉近到文本空間:對于抽象層面的問答,如總結圖片大致內容,這樣的表征其實是沒有什么問題的,但一旦追問與語言無強依賴的細節,模型就更易出現幻覺。根本原因之一,是在文本空間對齊之前,原生視覺結構已被不可逆地壓縮 / 丟失,而語言模型不得不「二次解碼」來自他模態的 embedding,導致對齊脆弱、推理鏈條變長。

      為此,北大、UC San Diego 和 BeingBeyond 聯合提出一種新的方法——Being-VL 的視覺 BPE 路線。Being-VL 的出發點是把這一步后置:先在純自監督、無 language condition的設定下,把圖像離散化并「分詞」,再與文本在同一詞表、同一序列中由同一 Transformer 統一建模,從源頭縮短跨模態鏈路并保留視覺結構先驗。

      Being-VL 的實現分為三步。首先用 VQ(如 VQ-GAN)把圖像量化為離散VQ tokens;隨后訓練一個視覺版 BPE,不只看共現頻次,還顯式度量空間一致性,以優先合并那些既常見又在不同圖像中相對位置穩定的 token 對,得到更具語義與結構的BPE tokens;最后把視覺 tokens 與文本 tokens 串成同一序列,進入同一個自回歸 LLM 統一建模,不再依賴額外 projector 或 CLIP 對齊。整個 BPE 詞表學習僅依賴圖像統計,不看文本,真正把「語言對齊」留到后續階段。





      • 論文鏈接:https://arxiv.org/abs/2506.23639
      • 項目主頁:
      • https://beingbeyond.github.io/Being-VL-0.5
      • GitHub:
      • https://github.com/beingbeyond/Being-VL-0.5

      與「把視覺直接投到文本空間」有何本質不同?

      傳統做法讓 LLM 去再解釋外部視覺 encoder 的連續 embedding;即便 encoder 學到了豐富模式,沒有對應解碼器,LLM也要額外學習如何「讀懂」其他模態,這會放大模態鴻溝并誘發幻覺。Being-VL 把視覺提前離散化為可組合的 tokens,并在序列里與文本統一建模,減少表征形態錯位,縮短跨模態因果鏈條,從而在保持感知細節與高層語義的同時,降低「想象成分」。


      針對視覺場景設計的 BPE tokenizer:頻次 × 空間一致性

      文本大模型中的 BPE 只看「誰和誰經常相鄰」。在視覺里,如果只按頻次去合并,容易破壞結構。Being-VL 因此提出Priority-Guided Encoding:基于 score P (a,b)=F (a,b)+α?S (a,b) 進行 BPE 詞表構建,其中 F 為鄰接頻次,S 衡量在不同圖像中的相對位置一致性,相似度用高斯核對齊。這樣得到的視覺詞表既覆蓋高頻模式,又保留空間結構。并且這個過程完全不依賴文本。

      三階段訓練:從 VQ/BPE embeddings 到 LLM backbone 的漸進解凍

      為了讓統一的離散表示平滑接入語言模型,Being-VL 采用三階段(3-stage)訓練并顯式控制解凍順序:

      • Stage-1 / Embedding Alignment:只訓練新擴展的視覺 token embeddings(包括 VQ 與 BPE 兩部分),其余參數全部凍結,完成基礎對齊而不擾動原有語言能力。
      • Stage-2 / Selective Fine-tuning:解凍 LLM 前若干層(默認約 25%),其余層繼續凍結,讓跨模態交互首先在底層表征中發生。
      • Stage-3 / Full Fine-tuning:全量解凍,在更復雜的 reasoning /instruction 數據上收尾,強化高級能力。

      與解凍節奏配套,數據采用curriculum:從基礎 caption 與屬性識別,逐步過渡到視覺問答與多輪指令,顯式對齊 BPE 的「由局部到整體」的層級特性。消融表明:漸進解凍 + curriculum明顯優于單階段訓練;只用其中任一也不如兩者合用。



      實驗與分析

      Being-VL 的一系列對照實驗給出一個清晰結論:把圖像先離散化并做視覺 BPE,再與文本在同一序列里統一建模,既穩又有效。相較傳統「先拉到文本空間」的做法,這種統一的離散表示更少丟失原生視覺信息,因而在細節敏感的問答與抗幻覺上更可靠;而一旦移除 BPE,性能與穩健性都會整體下降,說明增益主要來自于把「常見且空間關系穩定」 的視覺模式合成更有語義的 tokens,讓 LLM 在更合適的粒度上推理。

      訓練與規模選擇方面也有明確「可執行」的答案。三階段漸進解凍 + curriculum是默認策略:先只對齊VQ/BPE embeddings,再解凍一部分LLM backbone,最后全量微調,能在不擾動語言能力的前提下穩步提升跨模態理解。

      Visual BPE Token 激活機制可視化




      Embedding 權重的可視化揭示了詞表設計對跨模態表征的影響:在不使用 visual BPE 的基線模型(上圖)中,文本與視覺 token 的權重呈現顯著偏置與分離,體現出明顯的模態隔閡;而引入不同詞表大小的 visual BPE(中、下圖)后,兩類 token 的權重分布趨于均衡與同構,說明 BPE 在更細粒度上對齊了子詞 / 子片段層面的統計與表征空間。由此帶來的直接效應是跨模態注意力的共享基準更一致、梯度信號更可比,從而降低模態間的分布漂移與共現偏差。

      詞表大小對訓練效率與擴展潛力的影響




      研究進一步考察了 BPE 詞表規模的作用。可視化結果顯示:在訓練資源受限的情形下,與 VQ 等規模的碼本在表達能力與訓練效率之間取得了更佳平衡,處于「甜點區」。當詞表繼續增大(≥16K)時,會出現大量低利用率、呈稀疏分布的 token,導致單位算力的收益下降。不過,這也預示著在數據規模擴張時存在更強的上限潛力。論文提出的方法可在更大的詞表與更多數據的配合下,釋放這部分擴展空間,進一步提升模型表現。

      發展與小結(Being-VL-0 → Being-VL-0.5)

      Being-VL-0 (ICLR 2025)

      • Being-VL-0 給出的是視覺離散化 + BPE 的可行性與動機:從理論分析與 toy 實驗出發,得出結論 BPE-style 合并能把必要的結構先驗灌注進 token,使 Transformer 更易學習;并初步探索了兩階段訓練(PT→SFT)、文本 embedding 凍結策略與數據 scaling 帶來的穩健增益。
      • 項目地址:
      • https://github.com/BeingBeyond/Being-VL-0

      Being-VL-0.5 (ICCV 2025 highlight)

      • Being-VL-0.5 則把這一路線進一步優化為一個統一建模框架:頻次與空間一致性聯合的 Priority-Guided Encoding、VQ/BPE/LLM 三階段漸進解凍、以及配套的 curriculum 數據策略。
      • 項目地址:
      • https://beingbeyond.github.io/Being-VL-0.5

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      陳小魯猝死的反思:退休了住哪兒好?

      陳小魯猝死的反思:退休了住哪兒好?

      霹靂炮
      2025-11-05 21:13:41
      民進黨當局稱大陸未來可能全球通緝“臺獨”頑固分子,國臺辦回應

      民進黨當局稱大陸未來可能全球通緝“臺獨”頑固分子,國臺辦回應

      極目新聞
      2025-11-05 11:32:07
      利潤暴降45%,“非洲手機之王”為何突然不“香”了?

      利潤暴降45%,“非洲手機之王”為何突然不“香”了?

      鳳凰網財經
      2025-11-05 09:42:39
      商務部副部長李成鋼會見美國農產品貿易代表團

      商務部副部長李成鋼會見美國農產品貿易代表團

      界面新聞
      2025-11-05 17:24:55
      上千只貓被抽干血后放生水庫, 攜帶病毒死在水中,將追查放生者

      上千只貓被抽干血后放生水庫, 攜帶病毒死在水中,將追查放生者

      萬象硬核本尊
      2025-11-04 19:55:24
      英媒爆猛料!中國用ASML“落后”光刻機造出先進芯片,美方攔不住

      英媒爆猛料!中國用ASML“落后”光刻機造出先進芯片,美方攔不住

      金錯刀
      2025-11-05 12:08:15
      剛一發布,瞬間暴漲200%!有人立馬出手:好怕搶不到

      剛一發布,瞬間暴漲200%!有人立馬出手:好怕搶不到

      河南交通廣播1041
      2025-11-05 16:45:24
      石家莊警方:男子因工作糾紛持刀扎傷兩名同事,已被當場控制

      石家莊警方:男子因工作糾紛持刀扎傷兩名同事,已被當場控制

      界面新聞
      2025-11-05 13:44:22
      確認了!浙江新增一座機場

      確認了!浙江新增一座機場

      魯中晨報
      2025-11-05 20:51:04
      雷霆126-107勝快船,8連勝!這一戰我徹底看清6個現實:保羅老了

      雷霆126-107勝快船,8連勝!這一戰我徹底看清6個現實:保羅老了

      毒舌NBA
      2025-11-05 14:39:06
      被謝賢養了12年,用青春換來2000萬的Coco,已經走上了另一條道路

      被謝賢養了12年,用青春換來2000萬的Coco,已經走上了另一條道路

      妙知
      2025-11-05 15:19:50
      離譜!東南亞電詐園區辦公室里,竟然出現了中文橫幅……

      離譜!東南亞電詐園區辦公室里,竟然出現了中文橫幅……

      麥杰遜
      2025-11-05 12:52:35
      年輕人不買賬,中年人喝不起!茅臺跌破1600,終于承認只是瓶酒?

      年輕人不買賬,中年人喝不起!茅臺跌破1600,終于承認只是瓶酒?

      金融八卦女
      2025-11-05 13:57:48
      攜手出局?中超3隊本輪亞冠全不勝+進淘汰區!包攬東亞區榜末3位

      攜手出局?中超3隊本輪亞冠全不勝+進淘汰區!包攬東亞區榜末3位

      我愛英超
      2025-11-05 22:21:52
      網傳上海建工集團幾萬員工回家待崗,只發兩三千元還扣社保公積金

      網傳上海建工集團幾萬員工回家待崗,只發兩三千元還扣社保公積金

      爆角追蹤
      2025-11-05 19:18:19
      紐約迎來新市長:90后、印度裔、穆斯林、民主社會主義者、特朗普的“噩夢”

      紐約迎來新市長:90后、印度裔、穆斯林、民主社會主義者、特朗普的“噩夢”

      上觀新聞
      2025-11-05 17:59:14
      西貝迎來“閉店潮”,一切都結束了

      西貝迎來“閉店潮”,一切都結束了

      首席品牌觀察
      2025-11-05 15:58:18
      炸鍋了炸鍋了!港圈突然爆出大新聞:謝霆鋒居然通過法律協議

      炸鍋了炸鍋了!港圈突然爆出大新聞:謝霆鋒居然通過法律協議

      小光侃娛樂
      2025-11-05 10:55:03
      國足新主帥出爐!名記:邵佳一確認當選,執教西海岸勝率36%

      國足新主帥出爐!名記:邵佳一確認當選,執教西海岸勝率36%

      奧拜爾
      2025-11-05 17:03:23
      小米通話將于12月3日停止服務

      小米通話將于12月3日停止服務

      極目新聞
      2025-11-05 21:05:11
      2025-11-05 23:51:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11656文章數 142498關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      丈夫突然病亡2天后妻子也離世留下一兒一女 妹妹發聲

      頭條要聞

      丈夫突然病亡2天后妻子也離世留下一兒一女 妹妹發聲

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      事關加快建設金融強國 中央金融辦發聲

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      教育
      游戲
      本地
      親子
      公開課

      教育要聞

      最新:2026年南京中考體育考試內容及評分標準曝光!

      遭日本禁止發售恐怖游戲上架Steam!內容過于凄慘

      本地新聞

      這屆干飯人,已經把博物館吃成了食堂

      親子要聞

      溫暖守護小患者 上海這家醫院的眼科有個“兒童樂園”

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日本熟妇乱一区二区三区| 中文字幕国产精品日韩| 亚洲欧美日韩国产精品一区二区| 亚洲一区二区av免费| 亚洲国产成人无码AV在线影院L| 99精品免费久久久久久久久日本 | 欧美高清狂热视频60一70| 欧美成人aaa片一区国产精品| 国产成人午夜福利在线播放| 在线无码免费看黄网站| 国产熟睡乱子伦视频在线播放| 呦系列视频一区二区三区| 国产精品国三级国产av| 久久综合激情网| 人妻在线中文字幕| 亚洲av午夜福利精品一区二区| 国产精品无码一区二区在线| 免费无码久久成人网站入口| 国产精品一区二区三区黄色| 无码一区中文字幕| 亚洲国产在一区二区三区| 久久精品国产熟女亚洲av| 免费人欧美成又黄又爽的视频| 精品国偷自产在线视频99| 亚洲色最新高清AV网站| 国产啪视频免费观看视频| 艳妇臀荡乳欲伦69调教视频| 国内自拍视频在线一区| 亚洲一区二区在线av| 东京热人妻无码一区二区av| 国产精品日韩中文字幕| 国产视色精品亚洲一区二区| 国产欧美日韩精品第二区| 亚洲熟妇自偷自拍另欧美| 蜜桃一区二区三区免费看| 国产精品无码mv在线观看| 亚洲中文字幕人妻系列| 国产激情国产精品久久源| 精品激情视频一区二区三区| 久久永久视频| 日本一道一区二区视频|