網易首頁 > 網易號 > 正文申請入駐

內存直降50%，token需求少56%！用視覺方式處理長文本

2025-11-01 09:07:33　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】在NeurIPS 2025論文中，來自「南京理工大學、中南大學、南京林業大學」的研究團隊提出了一個極具突破性的框架——VIST（Vision-centric Token Compression in LLM），為大語言模型的長文本高效推理提供了全新的「視覺解決方案」。值得注意的是，這一思路與近期引起廣泛關注的DeepSeek-OCR的核心理念不謀而合。

在處理短文本時，大語言模型（LLM）已經表現出驚人的理解和生成能力。但現實世界中的許多任務——如長文檔理解、復雜問答、檢索增強生成（RAG）等——都需要模型處理成千上萬甚至幾十萬長度的上下文。

與此同時，模型參數規模也從數十億一路飆升至萬億級別。

在「上下文長度激增」與「模型參數量膨脹」的雙重挑戰下，Token壓縮不再是優化項，而是必需品。

若不能有效縮減輸入規模，即便最強大的大語言模型，也難以高效處理我們需要它分析的海量信息。

南京理工大學、中南大學、南京林業大學的研究人員提出VIST（Vision-centric Token Compression in LLM）框架，正是為了解決這一痛點。

論文鏈接：https://arxiv.org/abs/2502.00791

研究團隊早在一年多以前NeurIPS 2024就開始探索——如何讓模型像人類一樣，以視覺的方式更高效地理解長文本。

論文鏈接：https://arxiv.org/pdf/2406.02547

人類閱讀文章時，不會逐字讀完每一個詞。

「的」「了」「和」這些功能性高頻詞，幾乎是被大腦自動略過的。真正讓我們停下來的，是那些承載意義的低頻詞——名詞、動詞、數字等。

VIST 的核心思想，就是讓大模型也具備這種「選擇性閱讀」能力。

它設計了一種模仿人類「快–慢閱讀通路（Slow–Fast Reading Circuit）」的視覺化壓縮機制，讓大模型在理解長文本時，既能快速掃讀，又能深入思考：

快路徑（Fast Path）：將遠處、相對次要的上下文渲染為圖像，由一個凍結的輕量級視覺編碼器快速提取顯著性語義；

慢路徑（Slow Path）：將關鍵的近處文本直接輸入 LLM，用于深層推理與語言生成。

這種「視覺+語言」的雙通道協作，就像人類的眼睛與大腦——一邊掃視全局，一邊聚焦要點，深度思考。

VIST讓模型真正具備了「像人一樣速讀」的能力。

憑借這一設計，在處理相同文本內容時，VIST所需的視覺Token數量僅為傳統文本分詞所需Token數量的56%，內存減少了50%。

用「視覺壓縮」解鎖長文本理解

早期的LLM主要通過tokenizer把文本拆分的離散token輸入給LLM去處理，這種范式帶來了很多好處如高度語義化。

但是已有研究發現，經過大規模圖文配對數據預訓練，CLIP等視覺編碼器能夠自發掌握 OCR 能力，這使它們可以直接理解文本圖像內容，為長文本的視覺化處理提供了強大工具。

VIST則借鑒了人類高效閱讀的技巧，提出了一種全新的快–慢視覺壓縮框架，用視覺方式處理長文本，讓模型既能快速掃讀，又能深度理解。

快路徑（Fast Path）

將次要的長距離上下文渲染成圖像，由輕量級視覺編碼器處理；

通過 Resampler 將視覺特征進一步壓縮為4倍；

壓縮后的視覺特征再通過cross-attention與LLM的主輸入整合。

慢路徑（Slow Path）

對近處或核心文本直接交給LLM處理，進行深度推理和語言生成。

這種「掃視遠處，專注近處」的方式，模擬了人類閱讀的自然策略，讓模型在長文本場景下既高效又精準。

概率感知視覺增強

教模型學會略讀

雖然視覺編碼器（如 CLIP）非常強大，但它們主要在自然圖像上訓練，對于渲染文本的理解能力有限。而且，長文本中往往充斥大量冗余信息，如果不加選擇地處理，浪費算力，還會被干擾得抓不住重點。

為此，VIST引入了一個巧妙的機制——概率感知視覺增強（PVE, Probability-informed Visual Enhancement），教模型「略讀」，抓住關鍵信息，忽略冗余詞。

在訓練中，PVE采用基于頻率的屏蔽策略（Frequency-based Masking Strategy）把高頻但信息量低的詞（如英文中的「the」、「with」）掩碼而重點保留低頻、高信息量詞如名詞、動詞、數字等核心內容。

這些經過語義優化的文本嵌入（embeddings）有效指導Resampler從文本圖像中提取最重要的語義信息，讓視覺壓縮模塊更高效、更精準。

視覺壓縮的極大潛力

在開放域問答（Open-domainQA）任務以及11 個 In-Context Learning（ICL）基準任務上，VIST 顯著優于基于文本編碼器的壓縮方法 CEPE。

即便在極端條件下——所有篇章僅通過視覺編碼器處理——VIST仍能在開放域問答任務中達到與TinyLlama相當的性能，充分顯示了視覺壓縮在長文本處理中的可靠性。

此外，VIST在處理相同文本內容時，所需視覺 Token 數量比傳統文本 Token 少56%（壓縮比約為2.3，從 1024 個文本Token壓縮到448個視覺 Token），同時顯存使用減少50%，極大提高了計算效率。

讓大模型「用眼睛讀文字」

VIST利用輕量級視覺編碼器，將冗長的上下文信息壓縮處理，為大語言模型提供了一條高效、低成本的新路徑。

更妙的是，視覺編碼器還能充當視覺文本分詞器（Visual Text Tokenization），帶來四大優勢：

1. 簡化分詞流程傳統文本分詞器依賴復雜規則和固定詞表，通常涉及近十步人工預處理（如小寫化、標點符號處理、停用詞過濾等）。

視覺編碼器直接將渲染后的文本視作圖像輸入，無需繁瑣預處理，處理流程更直接高效。

2. 突破詞表瓶頸傳統分詞器在多語言環境下容易受詞表限制影響性能，而視覺編碼器無需詞表，統一處理多種語言文本，大幅降低嵌入矩陣和輸出層的計算與顯存開銷。

3. 對字符級噪聲更魯棒視覺編碼器關注整體視覺模式，而非單個 Token 匹配，因此對拼寫錯誤或低級文本攻擊具備天然抵抗力。

4. 多語言高效性盡管本文主要針對英文，視覺文本分詞器在其他語言中同樣高效：與傳統文本分詞相比，可減少62%的日文Token、78%的韓文Token、27%的中文Token，在處理長文本時優勢尤為顯著。

結語與未來展望

VIST 展示了「視覺 + 語言」協作在大模型長文本理解中的巨大潛力：

它讓大模型能夠「像人一樣讀」，快速掃視冗余信息，同時專注于關鍵內容；
它為多語言、長文本、甚至多模態場景提供了高效處理方案。

未來，視覺驅動的 Token 壓縮可能會成為長上下文 LLM 的標準組件。隨著模型規模不斷增長，這種「先看再讀」的策略，將幫助大模型在保證理解能力的同時，大幅降低計算成本，為多模態智能理解鋪平道路。

參考資料：

https://arxiv.org/abs/2502.00791

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.