![]()
剛剛我在刷動(dòng)態(tài)時(shí),看到了李飛飛老師轉(zhuǎn)發(fā)的一篇她們實(shí)驗(yàn)室的文章。標(biāo)題是RTFM:實(shí)時(shí)框架模型。點(diǎn)進(jìn)去之前,我以為這又會(huì)是一篇關(guān)于模型精度提升、參數(shù)量增加的常規(guī)技術(shù)發(fā)布,結(jié)果發(fā)現(xiàn)AI教母真不是白叫的
![]()
現(xiàn)在就可以在這里體驗(yàn)RTFM:
https://rtfm.worldlabs.ai/

長(zhǎng)久以來,構(gòu)建一個(gè)實(shí)時(shí)、持久、交互的虛擬世界,面臨著一個(gè)近乎無解的難題:算力。
我們總以為,世界模型必然是用海量的GPU堆成的。文章里算了一筆賬,如果要實(shí)時(shí)生成一個(gè)4K、60幀的互動(dòng)世界,對(duì)算力的消耗,相當(dāng)于AI每秒鐘就要讀完一本《哈利波特》。這還僅僅是實(shí)時(shí),如果要讓這個(gè)世界持久,你探索一小時(shí)后,所有東西都還在原位,那AI需要處理的記憶數(shù)據(jù),將是一個(gè)天文數(shù)字
這樣以來,世界模型將會(huì)是未來很多年,只有少數(shù)巨頭才能參與的游戲
而RTFM給出的,卻是一個(gè)極其優(yōu)雅的答案,它沒有去正面硬扛這個(gè)問題,而是繞了個(gè)彎,用一種更聰明的方式解決了它。李飛飛老師的答案是:在一塊H100上,實(shí)現(xiàn)這一切
這個(gè)選擇的背后,還是受到了sutton 老爺子的“苦澀的教訓(xùn)”的影響:我們是真的被硬件卡住了,還是我們的方法本身就不夠經(jīng)濟(jì)?那些能夠隨著計(jì)算能力的提升而優(yōu)雅擴(kuò)展的簡(jiǎn)單方法,往往將在人工智能領(lǐng)域占據(jù)主導(dǎo)地位,因?yàn)樗鼈兡軌蚴芤嬗谟?jì)算成本的指數(shù)級(jí)下降,而這種下降在過去幾十年里推動(dòng)了所有技術(shù)的發(fā)展。生成世界模型完全有能力從計(jì)算成本持續(xù)下降的未來中獲益
傳統(tǒng)的3D渲染,像是一個(gè)一絲不茍的物理學(xué)家,它需要精確計(jì)算每一條光線的路徑、每一次反射和折射。這是一個(gè)龐大而嚴(yán)謹(jǐn)?shù)墓こ?/p>
RTFM不一樣。它是一個(gè)“被教會(huì)的渲染器”(Learned Renderer)。它通過觀看海量的視頻數(shù)據(jù),學(xué)會(huì)了這個(gè)世界的光影、材質(zhì)和空間關(guān)系應(yīng)該是什么樣子的
當(dāng)你給它一張圖片,讓它生成一個(gè)新的視角時(shí),它不是在計(jì)算物理,而是在它的認(rèn)知里進(jìn)行創(chuàng)作:根據(jù)我見過的億萬個(gè)廚房,在這個(gè)角度,光線大概率會(huì)這樣反射,陰影應(yīng)該落在這里
它把一個(gè)復(fù)雜的物理問題,轉(zhuǎn)化成了一個(gè)基于數(shù)據(jù)和經(jīng)驗(yàn)的感知問題。所以,它能如此高效地畫出那些極其耗費(fèi)算力的光影細(xì)節(jié),比如水面和玻璃的復(fù)雜反射

另一個(gè)讓我印象深刻的,是它解決持久性的方案
以往的模型,探索得越遠(yuǎn),記憶的包袱就越重,最終會(huì)慢到無法使用。而RTFM給它記住的每一幀畫面,都標(biāo)記了一個(gè)空間坐標(biāo)
這個(gè)設(shè)計(jì)非常巧妙。它等于給了AI一個(gè)空間感
當(dāng)需要渲染一個(gè)新畫面時(shí),它不需要調(diào)動(dòng)全部的記憶。它會(huì)像我們?nèi)艘粯樱魂P(guān)注附近的東西。這個(gè)技術(shù),他們稱之為“上下文騰挪”(Context Juggling)。這就像你在書房找一本書,你不會(huì)把整個(gè)家翻個(gè)底朝天,你只會(huì)去書架上找

正是這個(gè)看似簡(jiǎn)單的機(jī)制,讓RTFM構(gòu)建的世界可以無限大,永不遺忘,同時(shí)又保持著極高的效率
更多的技術(shù)細(xì)節(jié)看這里:
https://www.worldlabs.ai/blog/rtfm
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.