![]()
這兩天 AI 圈子又炸鍋了!
一個叫 DeepSeek-OCR 的新玩意兒,被好多人喊做“ AI 的 JPEG 時刻”。聽著就挺酷炫,但到底啥意思?跟咱有啥關系?
今天就來用大白話聊聊。
你有沒有想過——AI 有可能學不會的一項技能,居然是:掃一眼就能讀完一本書。
聽著是不是有點像科幻小說那味?
但今天咱聊的,不是玄幻,而是真實存在的新技術——光學壓縮(Optical Compression)。
它的目標就是讓 AI “一眼看完”,真的像人一樣看圖識世界。
AI 最大的老毛病:太能“卷”了
AI 界一直有個頭疼的大難題:超長文本太難處理。
比如 GPT-4,強是強,但你要是給它扔一本幾百頁的小說,它就要開始“燒腦”了。
而且這可不是“多一倍字,多一倍計算”這么簡單——是平方級增長。
簡單說,字越多,AI 就越累,錢包也越疼。
這點我特別懂,畢竟我讀完一本大部頭的書,前面都忘光了。
AI 也差不多,它讀著讀著就把前面的關鍵細節給丟了。
突破點:別讀字了,看圖!
解決辦法居然特別“人性化”——別再一個字一個字讀了,直接拍照!
是的,這就是光學壓縮的靈感:把整頁、甚至整本書拍成一張圖,讓 AI 直接去“看圖識文”。
![]()
▲ 傳統的文本處理和光學壓縮的文本處理
這張圖片就不只是圖片,而是一個信息密度爆炸的壓縮包。
咱們平時不都說“一圖勝千言”嘛?一張圖片能頂好多文字。AI也是這個理兒。
一張掃描的文檔圖片,它包含的信息量,比你把這些文字一個字一個字打進去,要“輕”得多,也更“緊湊”。
AI 只需處理少得多的視覺符號,就能理解整本書的內容。
效率提升那叫一個離譜,真·降維打擊。
真·技術派登場:DeepSeek OCR
光有想法不夠,得有人真做出來。
于是 DeepSeek 團隊推出了個新模型——DeepSeek OCR。
它的任務就一個:驗證光學壓縮到底靠不靠譜。
它的原理也簡單:
第一步:用 Deep Encoder 壓縮,把一整頁文字變成一張濃縮圖;
第二步:再用解碼器“解壓”,把文字原封不動還原回來。
![]()
▲ DeepSeek-OCR 包好壓縮和解壓兩部分
整個模型的三個死目標:
1?? 要能看超高清文字圖;
2?? 要超級省資源;
3?? 用盡可能少的視覺符號表達盡可能多的信息。
每一條都精準命中“算力貴、效率低”的痛點。
效果有多炸?看數據
有個數據我看到都驚了:壓縮 10 倍,還能保持 97% 準確率。
這基本就是無損壓縮。
更狠的是,壓到 20 倍,準確率還有 60%。
這效率,簡直是“拿命在壓”。
![]()
▲ DeepSeek-OCR 壓縮比和精度
同場對比時,其他模型處理同樣文檔要幾千個 token,而 DeepSeek OCR 只要一百來個。
![]()
▲ DeepSeek-OCR 用最少的 token 實現了頂尖的性能
這就叫——花最少的錢,辦最大的事。
我突然想到:AI 也該學會“遺忘”
講真,這技術讓我想到一個挺哲學的問題。
我們的大腦,其實也是種“光學壓縮”系統。
新記憶清晰得像高清照片,舊記憶慢慢糊成低清圖。
![]()
你十年前的午飯吃了啥?肯定不記得,也沒必要記。
也許 AI 也該這樣——
記住重要的,模糊掉次要的。
不是過目不忘才聰明,學會遺忘,可能才更像人。
所以我想把這個問題留給你:
對 AI 來說,“遺忘”到底是 bug,還是一種高級功能?
【參考】: https://github.com/deepseek-ai/DeepSeek-OCR
本文由「AI 范兒」出品
感謝你看到這里,如果覺得不錯,那就請幫忙點個贊、愛心、轉發三連吧,這對我們非常有幫助。如果想第一時間收到推送,也可以給我們加個星標?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.