網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek OCR論文引爆網(wǎng)絡(luò)！Andrej Karpathy：，我很喜歡；馬斯克：未來99%都是光子

2025-10-21 10:36:58　來源: AI寒武紀(jì)

江蘇舉報(bào)

分享至

剛剛，AI大神Andrej Karpathy表示非常喜歡DeepSeek OCR 論文，原話：

我相當(dāng)喜歡新的DeepSeek-OCR論文。它是一個(gè)很好的OCR模型（可能比dots稍微差一點(diǎn)），是的，數(shù)據(jù)收集等等，但無論如何都不重要。對(duì)我來說更有趣的部分（尤其是作為一個(gè)以計(jì)算機(jī)視覺為核心，暫時(shí)偽裝成自然語言的人）是像素是否比文本更適合作為LLM的輸入。文本標(biāo)記是否浪費(fèi)且糟糕，作為輸入。

還不知什么情況的看我這篇文章

Karpathy認(rèn)為，拋開模型本身不談，deepseek這篇論文引出了一個(gè)更值得深思的問題：對(duì)于LLM來說，像素是否是比文本更優(yōu)越的輸入形式？文本Token是否既浪費(fèi)又糟糕？

他進(jìn)一步設(shè)想，或許所有LLM的輸入都只應(yīng)該是圖像。即便是純文本內(nèi)容，也應(yīng)該先渲染成圖片再輸入給模型

Karpathy給出了支持這一構(gòu)想的四大核心理由：

1. 更高的信息壓縮效率

將文本渲染成圖像，可以實(shí)現(xiàn)更高的信息壓縮，這意味著更短的上下文窗口和更高的運(yùn)行效率

2. 更通用的信息流

像素是一種遠(yuǎn)比文本更通用的信息流。它不僅能表示純文本，還能輕松捕捉粗體、彩色文本，甚至是任意的圖表和照片

3. 默認(rèn)實(shí)現(xiàn)強(qiáng)大的雙向注意力

像素化的輸入可以很自然、很輕松地默認(rèn)使用雙向注意力進(jìn)行處理，這種處理方式比自回歸注意力更為強(qiáng)大

4. 徹底淘汰Tokenizer

Karpathy毫不掩飾自己對(duì)Tokenizer的嫌棄。他認(rèn)為Tokenizer是一個(gè)丑陋、獨(dú)立、非端到端的階段。它引入了Unicode和字節(jié)編碼的所有丑陋之處，繼承了大量歷史包袱，并帶來了安全和越獄風(fēng)險(xiǎn)（例如連續(xù)字節(jié)問題）

他舉例說，Tokenizer會(huì)導(dǎo)致兩個(gè)在人眼看來完全相同的字符，在網(wǎng)絡(luò)內(nèi)部被表示為兩個(gè)完全不同的Token。一個(gè)笑臉emoji，在模型看來只是一個(gè)奇怪的Token，而不是一個(gè)由像素構(gòu)成的、真實(shí)的笑臉，這導(dǎo)致模型無法利用其視覺信息帶來的遷移學(xué)習(xí)優(yōu)勢(shì)。Tokenizer必須消失，他強(qiáng)調(diào)

Karpathy總結(jié)道，OCR只是眾多視覺到文本（vision -> text）任務(wù)中的一種。而傳統(tǒng)的文本到文本（text -> text）任務(wù)，完全可以被重構(gòu)成視覺到文本任務(wù)，反之則不行

他設(shè)想的未來交互模式可能是：用戶的輸入（Message）是圖像，而解碼器（Assistant的響應(yīng)）的輸出仍然是文本。因?yàn)槿绾握鎸?shí)地輸出像素，或者是否有必要這樣做，目前還不明確

核心爭議：雙向注意力與圖像分塊

對(duì)于Karpathy的觀點(diǎn)，AI學(xué)者Yoav Goldberg提出了兩個(gè)疑問：

1.為什么說圖像能輕松獲得雙向注意力，而文本不能？

2.雖然沒有了Tokenization，但將輸入圖像切分成圖塊（Patches），難道不是一種類似且可能更丑陋的處理方式嗎？

Karpathy對(duì)此進(jìn)行了解釋。

他回應(yīng)說，原則上沒有任何東西阻止文本使用雙向注意力。但為了效率，文本通常都是以自回歸的方式進(jìn)行訓(xùn)練的。他設(shè)想，可以在訓(xùn)練中期加入一個(gè)微調(diào)階段，用雙向注意力來處理作為條件的信息（比如用戶的輸入消息，因?yàn)檫@些Token不需要模型去生成）。但他不確定在實(shí)踐中是否有人這樣做。理論上，為了預(yù)測(cè)下一個(gè)Token，甚至可以對(duì)整個(gè)上下文窗口進(jìn)行雙向編碼，但這將導(dǎo)致訓(xùn)練無法并行化

最后他補(bǔ)充道，或許這個(gè)方面（雙向注意力）嚴(yán)格來說并非像素與Token的本質(zhì)區(qū)別，更多是像素通常被編碼（encoded），而Token通常被解碼（decoded）（借用原始Transformer論文的術(shù)語）

馬斯克：未來99%是光子

在這場(chǎng)討論的最后，Elon Musk也現(xiàn)身評(píng)論區(qū)，并給出了一個(gè)更具未來感的判斷：

從長遠(yuǎn)來看，AI模型超過99%的輸入和輸出都將是光子。沒有其他任何東西可以規(guī)模化

馬斯克的這條評(píng)論并非隨口一說。他進(jìn)一步補(bǔ)充了一段堪稱硬核的宇宙學(xué)科普，來解釋為什么他認(rèn)為“光子”是終極的規(guī)模化方案

簡單來說，宇宙中絕大多數(shù)的粒子都是光子

而這些光子最主要的來源，是宇宙微波背景（CMB）。根據(jù)測(cè)算，CMB的光子密度約為每立方厘米410個(gè)。將這個(gè)密度乘以可觀測(cè)宇宙的巨大體積（半徑約465億光年），可以得出僅CMB貢獻(xiàn)的光子數(shù)量就達(dá)到了一個(gè)驚人的數(shù)字：約1.5 x 10??個(gè)

相比之下，所有恒星發(fā)出的光子（星光）以及其他來源（如中微子背景、黑洞輻射等）貢獻(xiàn)的數(shù)量，則完全可以忽略不計(jì)

這背后揭示的物理事實(shí)是：光子在數(shù)量級(jí)上擁有無與倫比的優(yōu)勢(shì)。這或許就是馬斯克認(rèn)為AI的未來輸入輸出將由光子主宰的底層邏輯

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.