網易首頁 > 網易號 > 正文申請入駐

DeepSeek開源新成果！把長文檔壓縮成圖片，降低大模型處理成本

2025-10-20 18:17:59　來源: DeepTech深科技

北京舉報

分享至

DeepSeek 開源新成果了。

這次他們發布了一個名為 DeepSeek-OCR 的模型，嘗試用一種新穎的“上下文光學壓縮”方法，來解決當前大語言模型處理長篇文檔時效率不高、成本過高的問題。

（來源：GitHub）

我們知道，大語言模型在處理幾千字、幾萬字甚至更長的文本時，計算量會急劇增加，對算力和內存的要求非常高。這成了限制它們在很多需要處理海量文檔場景中應用的一個瓶頸。

圖丨流行視覺語言模型中的典型視覺編碼器（來源：GitHub）

DeepSeek-OCR 的思路，就是想繞開這個難題。DeepSeek 團隊指出，人類在閱讀文檔時，視覺系統扮演了至關重要的角色，能夠快速捕捉和壓縮頁面布局、段落結構等信息。那么，機器是否也能模擬這一過程？DeepSeek-OCR 正是對這一設想的初步探索。

它的核心想法是，能不能不直接把長長的文字序列喂給語言模型？而是先把這些文字內容渲染成一張圖片，然后利用高效的視覺模型對這張圖片進行壓縮和理解，最后只把壓縮后的、數量少得多的視覺特征交給語言模型去“解壓”和處理。

因此，它不只是個 OCR 工具，更像是一個為大模型打造的“視覺預處理器”，一個能把成千上萬個文本 token 高效打包成幾百個視覺 token 的壓縮引擎。

DeepSeek-OCR 的架構設計主要由兩大核心組件構成：DeepEncoder（深度編碼器）和 DeepSeek-3B-MoE-A570M（一個擁有 30 億參數、激活 5.7 億參數的混合專家模型）解碼器。

DeepEncoder 是整個系統的關鍵所在。它的設計目標在于，在處理高分辨率輸入圖像的同時，保持較低的激活內存，并實現極高的壓縮比。為了達到這一目的，DeepEncoder 融合了兩種成熟的視覺模型架構：SAM（Segment Anything Model）和 CLIP（Contrastive Language–Image Pre-training）。前者以窗口注意力機制（window attention）見長，擅長處理局部細節，構成了編碼器的前半部分；后者則依賴密集的全局注意力機制（global attention），能夠捕獲整體知識信息。

兩者之間，通過一個 16 倍下采樣的卷積壓縮模塊進行橋接。一張高分辨率的文檔圖片輸入后，首先由 SAM 高效地處理海量、分散的視覺特征，然后這些特征在進入計算成本高昂的全局注意力網絡之前，被大幅壓縮。這一“先分后總、先粗后精”的設計，有效解決了高分辨率圖像處理中常見的內存溢出和 token 數量爆炸的問題。

圖丨 DeepSeek-OCR 的架構（來源：GitHub）

而解碼端則采用了 DeepSeek 自家的混合專家（Mixture-of-Experts, MoE）架構。MoE 模型通過將任務分發給不同的專家網絡，能夠在保持模型整體規模可控的前提下，實現強大的表達能力。在 DeepSeek-OCR 中，這個擁有約 5.7 億激活參數的解碼器，負責將 DeepEncoder 輸出的壓縮視覺 token“解壓”還原為精準的文本序列。

為了驗證這一新范式的有效性，DeepSeek 在 Fox 和 OmniDocBench 等 OCR 基準上檢驗了其壓縮-解壓過程是否可靠且信息無損。在針對包含 600 到 1,300 個文本 token 的英文文檔測試中，DeepSeek-OCR 僅使用 64 或 100 個視覺 token 即可完成處理。數據顯示，當壓縮比（原始文本 token 數與所用視覺 token 數的比值）低于 10 倍時，模型的 OCR 解碼精度可保持在 97% 以上。即使在壓縮比達到 20 倍的情況下，準確率也依然能維持在 60% 左右。

（來源：GitHub）

在更側重實際應用場景的 OmniDocBench 測試中，DeepSeek-OCR 的表現同樣突出。相較于 GOT-OCR2.0（平均每頁使用 256 個 token）和 MinerU2.0（平均每頁使用超過 6000 個 token）等其他端到端模型，DeepSeek-OCR 在使用更少視覺 token 的情況下，整體性能達到了業界先進水平。

除了文本識別性能，DeepSeek-OCR 還具備較強的“深度解析”能力。這得益于其訓練數據中包含了圖表、化學分子式、幾何圖形等多樣化的視覺內容。因此，模型不僅能識別標準文本，還能對文檔中嵌入的復雜元素進行結構化解析。例如，它可以將報告中的圖表轉換為表格數據，將化學文獻中的分子式輸出為 SMILES 格式，或解析幾何圖形中的線段關系。這種超越傳統文本識別的能力，拓展了其在金融、科研、教育等專業領域的應用空間。

值得注意的是，DeepSeek 已將 DeepSeek-OCR 的核心代碼和模型權重開源，據其技術報告披露，在生產環境中，單張 A100-40G GPU 每日可處理超過 20 萬頁的文檔數據。

當然，作為一項探索性的工作，DeepSeek-OCR 目前也存在一些局限。報告指出，當壓縮比超過 10 倍后，模型性能會開始下降。這可能是因為長文檔的復雜布局在高度壓縮后信息損失增多，或是低分辨率圖像導致文本細節模糊。此外，雖然模型展現了對多種元素的解析能力，但在處理一些極端復雜的版面時，其性能仍有提升空間。

而且，OCR 任務雖然提供了清晰的壓縮-解壓縮映射和可量化的評估指標，但文檔識別與真實的多輪對話理解存在本質差異。前者主要考驗模型的感知和解碼能力，后者還涉及推理、記憶檢索、上下文關聯等更復雜的認知過程。

一份文檔的各段落間相對獨立，而對話的輪次間存在強依賴關系。將對話歷史光學化后，模型能否依然保持對早期關鍵信息的有效檢索，需要專門的“大海撈針”（needle-in-a-haystack）測試來驗證。技術報告坦言，他們計劃在未來進行數字文本與光學文本交錯的預訓練實驗，以及長上下文檢索準確性評估。

不過，DeepSeek-OCR 仍然是一個具有相當重要價值的工作，除了是一款性能出色的 OCR 工具，它還為視覺與語言兩種模態的深度融合提供了新的思路。過去，視覺和語言通常被作為獨立的輸入源來處理，而 DeepSeek-OCR 的實踐表明，兩者或許可以互為信息壓縮和解壓的媒介。基于這一范式，未來或可探索將多輪對話的歷史記錄動態渲染成圖像，以期用更低的成本管理更長的對話歷史。同樣，海量知識庫也有可能被壓縮成一系列緊湊的視覺索引，以提升模型的知識檢索效率。

參考資料：

1.https://github.com/deepseek-ai/DeepSeek-OCR/tree/main

運營/排版：何晨龍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.