
來(lái)源 | 數(shù)字生命卡茲克(ID:Rockhazix)
這兩天在網(wǎng)上刷到了一張圖,很有意思。
![]()
其實(shí)就是一張經(jīng)典的視覺(jué)錯(cuò)覺(jué)圖,做了個(gè)漂浮的心形圖案。
如果你用電腦打開(kāi)這篇文章的話(huà),沒(méi)看到這個(gè)圖動(dòng)起來(lái)的話(huà),那就用手機(jī)打開(kāi)或者直接把頁(yè)面縮小。
瞬間,你就能看到這個(gè)圖里的愛(ài)心,直接左右橫跳起來(lái)了。。。
看到的兄弟可以把公屏打在彈幕上。
這哥們說(shuō),這是最好的AI探測(cè)器,說(shuō),沒(méi)有AI能看到這個(gè)圖中間還有個(gè)愛(ài)心。
我順手找了幾個(gè)模型試試,結(jié)果無(wú)一例外,果然,沒(méi)一個(gè)AI認(rèn)出來(lái)。
比如Gemini 2.5 Pro,率先翻車(chē)。
![]()
給我扯了一堆有的沒(méi)的,然后說(shuō)了一句,圓圈。
圈你妹= =
GPT-5-Thinking,想了2分多分鐘,直接陣亡。
![]()
甚至,我還試了一下豪華版GPT-5 Pro。
在長(zhǎng)達(dá)7分鐘的花里胡哨之后,宣布直接躺平。
![]()
國(guó)產(chǎn)三巨頭,豆包、Qwen、元寶,也都倒在了這張圖的淫威之下。
![]()
DeepSeek因?yàn)闆](méi)有多模態(tài),所以反而逃過(guò)一劫。
在這測(cè)試過(guò)程中,我一度產(chǎn)生了一種錯(cuò)覺(jué),就是,不會(huì)這些模型,不知道啥叫心形吧。
導(dǎo)致我非常智障的還去問(wèn)了一下。。。
![]()
認(rèn)識(shí),看來(lái)沒(méi)啥問(wèn)題。。。
你們也能看到,我用的都是同一套提示詞。
我覺(jué)得,同樣的問(wèn)題交給隨便的一個(gè)人,應(yīng)該都是能得出正確答案的。
所以,我就產(chǎn)生了很強(qiáng)的好奇。
這到底是什么?
再抽空花了一晚上的時(shí)間,去DeepReaserch和研究之后,我看到了一篇AI這塊超級(jí)好玩的論文。
是今年5月發(fā)的,叫《Time Blindness: Why Video-Language Models Can’t See What Humans Can?》
![]()
真的,AI研究到后面,怎么發(fā)現(xiàn),研究的全是人類(lèi)。。。
這個(gè)標(biāo)題翻譯過(guò)來(lái)大概就是:
為什么視覺(jué)語(yǔ)言模型看不到人類(lèi)能看到的東西?
雖然文中的例子是視頻,跟我們上文的愛(ài)心圖有點(diǎn)不太一樣,但是底層原理,其實(shí)在我讀完以后看來(lái),是完全一脈相通的。
這項(xiàng)研究設(shè)置了一個(gè)基準(zhǔn),叫做SpookyBench,合成了一堆由噪點(diǎn)組成的視頻,是黑白的。
隨便暫停一下,這個(gè)視頻的每一幀,看起來(lái)都像是隨機(jī)的雪花點(diǎn)或者電視噪音。
但是播放的時(shí)候,我們可以非常明確的看到一只鹿。
這個(gè)鹿我甚至都沒(méi)法截圖給大家看,只要截圖出來(lái)就必是噪點(diǎn)圖。
這玩意,跟最近X上流行的一個(gè)視覺(jué)錯(cuò)覺(jué)的寶劍視頻還挺像的。
你只要一暫停,就啥也看不到了。
還有很多類(lèi)似的。

這篇論文就拿451個(gè)這樣的視頻,組成了一個(gè)基準(zhǔn),去視覺(jué)大模型進(jìn)行測(cè)試。
![]()
結(jié)果就是,非常的喜聞樂(lè)見(jiàn)。
人類(lèi)可以毫不費(fèi)力地識(shí)別出這些視頻中的形狀、文本和圖案,準(zhǔn)確率超過(guò)98%。
而大模型的準(zhǔn)確率,為0%。
全軍覆沒(méi),無(wú)一幸免。
![]()
我已經(jīng)很久很久沒(méi)見(jiàn)過(guò)這么多的0分了。
太特么赤雞了。
無(wú)論模型架構(gòu)大小、訓(xùn)練數(shù)據(jù)規(guī)模、是否經(jīng)過(guò)微調(diào)或采用何種提示策略,AI從未答對(duì)任何一段視頻的內(nèi)容。
我也拿幾個(gè)模型去試了一下,同樣的那頭鹿的視頻,Gemini2.5-Pro同樣無(wú)法識(shí)別。
![]()
原因其實(shí)特別簡(jiǎn)單。
AI是空間維度上的王者,但卻是時(shí)間維度上的瞎子。
我這么說(shuō)可能會(huì)有點(diǎn)難以理解。
我們可以先想想,現(xiàn)在所有的大模型,包括GPT-5、Gemini 2.5 Pro,它們是怎么看視頻的。
很多人以為他們跟人一樣,就是搬個(gè)小板凳擱那坐著,目不轉(zhuǎn)睛的看完了整個(gè)視頻?
錯(cuò)了,不是這樣的。
現(xiàn)在大模型的主流做法,本質(zhì)上不是看視頻,是看照片。
它們會(huì)從視頻里,每隔一段時(shí)間抽幀,也就是截取幾張靜態(tài)的圖片。 比如,第1秒截一張,第1.5秒截一張,第2秒截一張等等等等。
然后,AI會(huì)用它那分析靜態(tài)圖片(也就是空間信息)的能力,去分析這些所有的照片。
“哦,這張照片里有噪點(diǎn)。” “哦,這張照片里還是噪點(diǎn)。” “哦,這張照片里依然是噪點(diǎn)。”
最后,它得出結(jié)論: “這特么就是個(gè)噪點(diǎn)視頻。”
這就是最本質(zhì)的問(wèn)題所有,AI徹底丟掉了所有的幀與幀之間的信息。
而那個(gè)“漂浮的心形”和“噪點(diǎn)中的鹿”,其實(shí)本質(zhì)上,它們的信息恰恰只存在于幀與幀之間。
這其實(shí),就是,時(shí)間維度。
在任何一個(gè)單獨(dú)的瞬間,心形和鹿都是不存在的,都是不可見(jiàn)的。
你只有把這些瞬間連續(xù)播放,讓時(shí)間流動(dòng)起來(lái),你才能看到他們。
突然想起了以前做交互設(shè)計(jì)的時(shí)候,有一個(gè)幾乎刻在我血液里的心理學(xué),這玩意,叫格式塔心理學(xué)。
幾乎就是用戶(hù)體驗(yàn)行業(yè)的基石之一。
![]()
里面有一個(gè)非常牛逼的原則,叫“共同命運(yùn)法則”(Law of Common Fate)。
這個(gè)法則是說(shuō),我們的大腦會(huì)本能地、自動(dòng)地、不講道理地,把朝著同一方向運(yùn)動(dòng)的物體,識(shí)別為一個(gè)整體。

這玩意幾乎就是刻在我們的史前基因里面的。
比如在幾萬(wàn)年前的草原上,我們的老祖宗“智人坤坤”,正蹲在草叢里。
他眼前是一片隨風(fēng)擺動(dòng)的、雜亂的灌木。
突然,在灌木叢中,有一小片葉子的擺動(dòng)方式,跟周?chē)械娜~子都不一樣,它們?cè)谝砸粋€(gè)相同的規(guī)律,朝著同一個(gè)方向(比如坤坤的方向)緩慢移動(dòng)。
坤坤的大腦,甚至不需要他思考,就會(huì)立刻拉響警報(bào): “臥槽!快跑!老虎來(lái)了!!!有危險(xiǎn)!!”
那些“共同運(yùn)動(dòng)”的像素點(diǎn),在坤坤的大腦里自動(dòng)組合成了老虎這個(gè)整體。
所以,你看,當(dāng)你看到那個(gè)“噪點(diǎn)鹿”的視頻時(shí),你根本不需要努力,你大腦里的共同命運(yùn)法則就自動(dòng)啟動(dòng)了。
它幫你把所有一起往上移動(dòng)的噪點(diǎn)歸為一類(lèi),識(shí)別為“鹿”,把所有一起往下移動(dòng)的噪點(diǎn)歸為另一類(lèi),識(shí)別為“背景”。
你之所以能看到鹿,不是因?yàn)槟憧匆?jiàn)了鹿,而是因?yàn)槟憧匆?jiàn)了運(yùn)動(dòng)本身。
但AI不行。它沒(méi)有我們這套“共同命運(yùn)法則”的視覺(jué)系統(tǒng)。
它的架構(gòu),論文里叫 "Spatial Bias"空間偏見(jiàn),決定了它只能先去識(shí)別空間上的特征。
它看每一幀,都是一堆雜亂無(wú)章的噪點(diǎn)。
但它無(wú)法從時(shí)間的維度上,去發(fā)現(xiàn)這些噪點(diǎn)之間“共同的命運(yùn)”,所以,它看不到那只鹿。
這個(gè)問(wèn)題,在論文中,被稱(chēng)為。
時(shí)間盲視,Time Blindness。
目前看,好像沒(méi)有啥解決辦法,不僅僅是一個(gè)技術(shù)漏洞了,或者一個(gè)可以喂數(shù)據(jù)就能解決的小bug,論文里也試了,微調(diào)訓(xùn)練也沒(méi)用。
我們活在流中,而AI活在幀中。
這個(gè)世界對(duì)我們來(lái)說(shuō),首先是連續(xù)的、流動(dòng)的、充滿(mǎn)過(guò)程的。
而對(duì)AI來(lái)說(shuō),這個(gè)世界首先是離散的、靜態(tài)的、充滿(mǎn)物體的。
太有意思了,這是我最近,看到的最哲學(xué)最讓我喜歡的一段表述。
我們現(xiàn)在理解了噪點(diǎn),讓我們回到最開(kāi)始的愛(ài)心。
這時(shí)候,我其實(shí)又產(chǎn)生了問(wèn)題,不對(duì)啊,運(yùn)動(dòng)這事,是時(shí)間維度的,但是那個(gè)愛(ài)心,明明就是一張圖,根本沒(méi)有時(shí)間屬性,那這玩意,到底為啥也能讓人感覺(jué)到,動(dòng)呢???
![]()
我沒(méi)理解,于是,我又進(jìn)行了新一輪的研究。。。
結(jié)果,答案居然讓我有點(diǎn)無(wú)語(yǔ)。。。
答案特別簡(jiǎn)單,就是因?yàn)椋?/p>
因?yàn)槲覀冏约簳?huì)動(dòng)。
還是,不受控制地動(dòng)。。。
在20世紀(jì)50年代,眼動(dòng)領(lǐng)域有一個(gè)實(shí)驗(yàn)證明了一個(gè)事情,就是,人眼在注視時(shí)并非完全靜止,而是不斷進(jìn)行微小的運(yùn)動(dòng)。
正是這些不自主的眼球運(yùn)動(dòng),保證了我們對(duì)靜止圖像的持續(xù)感知。
這樣的視錯(cuò)覺(jué)圖,基本上都是利用了我們這個(gè)會(huì)自己運(yùn)動(dòng)的特征,來(lái)做出動(dòng)態(tài)效果的。
![]()
為了使人類(lèi)能夠看見(jiàn),視網(wǎng)膜上的圖像必須持續(xù)發(fā)生一定程度的運(yùn)動(dòng)。
反過(guò)來(lái)講,如果某個(gè)視野(無(wú)論其大小、顏色或亮度)保持嚴(yán)格的靜止,那么在1~3秒內(nèi),該區(qū)域就會(huì)在視野中逐漸消失。
視覺(jué)科學(xué)里有個(gè)差不多的理論是特克斯勒消逝效應(yīng),說(shuō)的是當(dāng)人們長(zhǎng)時(shí)間注視一個(gè)固定點(diǎn)時(shí),周邊視野中不變的刺激會(huì)逐漸淡化甚至消失。
聽(tīng)起來(lái)挺繞的,但如果你想試一下,刻意控制眼球靜止不動(dòng)的話(huà),你可以放大這張圖,然后刻意的牢牢盯住中間的十字。
應(yīng)該可以感覺(jué)到十字周?chē)念伾诼В缓笞兂梢黄野咨?/strong>
![]()
這就是著名的特克斯勒消逝效應(yīng)的哲學(xué)。
沒(méi)有變化,則等于沒(méi)有信息。
這篇文章寫(xiě)著寫(xiě)著,突然感覺(jué)回到了7、8年前還在做用戶(hù)體驗(yàn)設(shè)計(jì)的時(shí)候,天天研究認(rèn)知心理學(xué)的日子。
那時(shí)候,我們天天在研究人,研究認(rèn)知心理學(xué),研究人的行為、研究人的眼動(dòng)路線(xiàn)、研究人的注意力、研究人的記憶,就想著,我們的產(chǎn)品,怎么讓用戶(hù)體驗(yàn)更絲滑一點(diǎn),讓他更爽一點(diǎn),我們的轉(zhuǎn)化率更高一點(diǎn)。。。
沒(méi)想到這么多年以后,天天研究AI,發(fā)現(xiàn)到頭來(lái)。
又回到了當(dāng)年。
原來(lái)當(dāng)年研究了那么久的知識(shí),在如今的時(shí)代,又以另一種路徑,穿越了時(shí)空,散發(fā)出了新的光彩。
AI跟人,也真的都是超級(jí)有趣的物種。
在無(wú)數(shù)路徑上殊途同歸,卻又在各自的路線(xiàn)上,分道揚(yáng)鑣。
但我還是更喜歡人一點(diǎn)。
畢竟,我們不僅能看到噪點(diǎn)中的鹿,我們還能看到沉默中的愛(ài),看到無(wú)常中的美。
還有,那時(shí)間。
流逝的本身。
>/ 作者:卡茲克
>/ 投稿或爆料,請(qǐng)聯(lián)系郵箱:wzglyay@virxact.com
來(lái)源 | 數(shù)字生命卡茲克(ID:Rockhazix)
未經(jīng)授權(quán),禁止二次轉(zhuǎn)載,如有需要聯(lián)系原公眾號(hào)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.