![]()
Google DeepMind 的Demis Hassabis是我認為目前最有可能帶領人類達成AGI的人,除了本身就是技術天才以外,從他過往的深度采訪以及哲學觀點,對AI的理解非常牛逼,今天這篇文章是Demis剛剛在All-In Summit 的深度訪談,這是他最新的觀點
Demis認為像Genie 3這樣的世界模型才是通往 AGI 的必經之路,讓 AI 真正理解我們所處的物理現實,由世界模型所引導的人形機器人是未來的機器人關鍵形態,谷歌內部正在推行機器人界的 Android戰略,Demis內涵了Sam Altman的GPT-5是博士級的AI說法,認為這是無稽之談,我們距離實現真正的AGI還需要5到10年,目前存在一到兩個關鍵的不存在的理論突破
另外Demis還透露他領導者一家名為Isomorphic Labs 的公司,這家公司可以被看作是諾獎級成果 AlphaFold 的延伸,目標是構建一系列“鄰近的 AlphaFold”徹底顛覆藥物設計開發臨床試驗全過程
Google DeepMind 的角色與 AlphaFold 的諾貝爾獎之路
Demis Hassabis 首先分享了他獲得諾貝爾獎的經歷,這一榮譽不僅是對他個人成就的肯定,更是對 AI 在基礎科學領域取得歷史性突破的認可。他將獲得諾貝爾獎的整個過程描述為一種超現實的體驗,從接到瑞典的電話通知,到在斯德哥爾摩參加持續一周、充滿歷史感的頒獎典禮,每一步都令人震撼。其中最令他感動的時刻,是在一本擁有 120 年歷史的諾貝爾名冊上簽下自己的名字,與愛因斯坦、瑪麗·居里、費曼等科學巨匠并列。Hassabis 提到,諾貝爾獎的評選不僅看重科學突破本身,也極其關注其在真實世界中產生的深遠影響,而 AlphaFold 正是這樣一個典范
在分享完個人榮譽后,Hassabis 清晰地定義了 Google DeepMind 在 Alphabet 集團中的戰略定位。他將 Google DeepMind 形容為整個 Google 和 Alphabet 的引擎室。經過內部整合,Google DeepMind 匯集了公司內所有頂尖的 AI 研發力量,形成了一個擁有約 5,000 名員工的強大團隊,其中超過 80% 是工程師和博士級研究員。這個團隊的核心任務是構建前沿的 AI 模型,并將其深度集成到 Google 的所有產品和服務中
核心模型 Gemini:作為旗艦模型,Gemini 不僅是對話式 AI 的基礎,其多模態能力 (multimodal) 使其能夠處理和輸出文本、圖像、音頻、視頻等多種信息格式。如今,全球數十億用戶已經通過各種方式與 Gemini 模型進行交互,例如 Google 搜索的 AI 概覽 (AI overview)、Gemini 應用等,就在昨天 Gemini APP已經超越ChatGPT成為蘋果應用商店下載量第一的應用
廣泛的產品集成:DeepMind 的技術正在被全面地融入到 Google 的生態系統中,包括 Workspace 辦公套件、Gmail 等,旨在提升用戶體驗和工作效率
前沿與應用的結合:Hassabis 強調了 Google DeepMind 獨特的優勢,即能夠將最前沿的科學研究與大規模的商業應用緊密結合,實現從理論到實踐的快速轉化,讓最新的 AI 技術能立即觸達數十億用戶
總而言之,Google DeepMind 不再僅僅是一個獨立的研究機構,而是驅動整個 Alphabet 集團智能化轉型的核心動力。它負責構建從基礎大模型到專有應用模型的全方位 AI 能力,并通過 AlphaFold 這樣的項目,展示了 AI 作為工具來解決人類最根本科學問題的巨大潛力
Genie 3 世界模型
在訪談中,Hassabis 重點介紹了 Genie 3 的革命性技術,它代表了 AI 在理解和生成物理世界方面的重大飛躍。Genie 3 是一個世界模型,其核心能力是僅通過單一的文本提示,就能生成一個可交互的、動態的虛擬世界。這與傳統的游戲開發或視頻生成有著本質的區別
傳統的 3D 虛擬世界構建,依賴于 Unity 或 Unreal 這樣的渲染引擎。開發者需要手動創建 3D 模型,編寫物理規則(如光線如何反射、物體如何碰撞),并設計所有交互邏輯。這是一個極其復雜且耗費人力的過程。而 Genie 3 的工作方式完全不同,它顛覆了這個流程:
端到端的生成:用戶看到的每一個像素都是由 Genie 3 模型實時動態生成的。在用戶與環境交互之前,這個世界的某些部分甚至根本不存在。例如,在一個演示中,當玩家視角轉向一個新區域時,該區域的景象才被即時創造出來;當視角轉回時,之前留下的痕跡(如墻上的涂鴉)依然存在,這證明模型維持了世界的內部一致性
逆向工程物理規律:Genie 3 的能力并非來自預設的物理代碼,而是通過學習數百萬計的視頻和游戲錄像等數據,自主地逆向工程出了我們世界運行的直觀物理規律。它理解了光影、水面反射、材質流動和物體行為等復雜現象,并將這些理解應用于世界的生成中,使得生成的環境看起來既真實又合乎邏輯
實時交互與控制:Genie 3 生成的不僅僅是靜態視頻,而是一個可以被用戶控制的動態環境。用戶可以通過鍵盤的箭頭鍵和空格鍵等簡單操作,在生成的世界中移動和互動,例如控制一個穿著小雞套裝的人,或是在沙灘上奔跑的狗。用戶還可以通過輸入新的文本指令
Hassabis 強調,構建像 Genie 3 這樣的世界模型,其戰略意義遠不止于游戲或娛樂。它是實現通用人工智能 (AGI) 的關鍵路徑之一。他認為,一個真正的 AGI 系統不能只理解抽象的語言或數學,它必須深刻理解我們所處的物理世界 。這種理解能力是實現以下目標的基礎:
高級機器人技術:機器人要在現實世界中安全、有效地執行任務,就必須具備對環境的直觀物理感知和預測能力。Genie 3 所展現的能力,正是未來機器人模型所需要的核心
智能助理與智能眼鏡:一個能夠在你日常生活中提供幫助的智能眼鏡助理,必須理解你所處的物理環境和上下文 (physical context),才能給出真正有用的建議
多模態模型的演進:Genie 3 和 Google 的文生視頻模型 VEO,都是 Gemini 從一開始就追求多模態能力的體現。通過生成動態世界,AI 證明了它對世界動態規律的深刻理解,這比單純處理靜態數據要復雜得多
Hassabis 個人對此項目感觸頗深,因為他在 90 年代曾親自編寫游戲和圖形引擎,深知手動實現這一切的難度。看到 AI 能夠如此毫不費力地完成這些復雜的任務,讓他感到非常震撼。Genie 3 的出現,標志著 AI 正在從理解內容,邁向理解并創造可交互的世界
AI 在機器人領域的現狀與未來
訪談中,Hassabis 深入探討了機器人技術,特別是視覺-語言-行為模型 (vision-language-action models) 的發展現狀和未來方向。這類模型的目標是創建一個通用系統,能夠通過攝像頭觀察物理世界,理解人類的自然語言指令(文本或語音),并將其轉化為具體的物理動作
Hassabis 指出,當前的 Gemini 模型已經具備了強大的物理世界理解能力,用戶可以通過手機上的 Gemini Live 功能,將攝像頭對準周圍環境,體驗其神奇的識別和分析能力。而機器人技術,正是這一能力的自然延伸。
Gemini 機器人模型:Google DeepMind 已經開發了專門的 Gemini 機器人模型,這是在通用 Gemini 模型的基礎上,使用額外的機器人數據進行微調的版本。這些模型能夠將高層次的語言指令,如“把黃色的物體放進紅色的桶里”,直接轉化為機器人手臂精確的馬達運動。這種多模態模型的優勢在于,它能將現實世界的常識性理解帶入人機交互中,使得與機器人的溝通更加自然和直觀
“機器人界的 Android”戰略:Hassabis 確認,Google 正在探索一種類似 Android 在移動設備領域的策略,即創建一個通用的、跨平臺的機器人軟件層或操作系統 (OS layer)。這個系統一旦足夠成熟,能夠適配多種硬件設備,就有可能催生一個龐大的機器人硬件生態系統,極大地加速機器人產品和公司的發展
垂直整合與端到端學習:除了平臺化戰略,Google 也在探索將最新的 AI 模型與特定的機器人硬件設計進行深度垂直整合。這種端到端的學習方法 (end-to-end learning) 同樣具有巨大潛力,兩條路線都在積極推進中。
關于機器人的具體形態,特別是人形機器人的價值,Hassabis 的觀點也發生了演變。他過去傾向于認為針對特定任務的專用形態機器人會是主流,例如在工廠流水線或實驗室中,優化形態以適應特定任務會更高效。然而,他現在認為,在通用或個人應用場景中,人形機器人可能至關重要
與人類世界兼容:我們的物理世界,從樓梯、門把手到各種工具,都是圍繞人類的形態設計的。與其大規模改造現有環境來適應機器人,不如設計一個能夠無縫融入這個環境的機器人形態,這在經濟和實踐上都更具可行性
通用性與專業性的并存:他最終的結論是,未來將是兩種形態并存的世界。工業領域會有高度專業化的機器人,而在與日常生活交互的場景中,人形機器人將扮演重要角色
盡管前景廣闊,Hassabis 也坦言機器人技術仍處于相對早期的階段。他預測,未來幾年內會出現一個令人驚嘆的wow moment,但在此之前,算法和硬件都還需要進一步發展。他認為,當前的模型在可靠性和對世界的理解上仍需提升。同時,硬件方面也面臨一個關鍵的時機問題:過早地投入大規模生產,可能會導致工廠剛建成,新一代更靈巧、更可靠的機器人設計就問世了。他用一個計算歷史的比喻來形容當前的狀態,或許我們正處于個人電腦的70年代,但他也補充道,在這個時代,十年發生的事情可能在一年內就完成了
邁向AGI 的挑戰:衡量標準、創造力與模型進展
Hassabis 在訪談中詳細闡述了他對通用人工智能 (AGI) 的看法,并指出了當前 AI 技術距離實現 AGI 所面臨的核心挑戰。他認為,AGI 的真正標志不僅僅是完成任務的能力,更在于其是否具備人類頂尖科學家和藝術家所擁有的真正的創造力。
他明確指出,當今的 AI 系統尚不具備這種創造力。它們可以證明一個已有的猜想,但無法獨立提出一個全新的、深刻的科學假說或理論。為了更具體地衡量 AGI,他提出了幾個極具挑戰性的測試標準:
科學發現的再現:給一個 AI 系統設定一個知識截止日期,比如 1901 年,看它是否能像愛因斯坦在 1905 年那樣,獨立推導出狹義相對論。如果 AI 能做到這一點,那將是 AGI 即將實現的有力證據
從策略到創造:以 AlphaGo 為例,它雖然在圍棋比賽中擊敗了世界冠軍,并創造了“第 37 手”這樣前所未有的新策略,但這仍是在既定規則下的優化。一個真正的 AGI,應該能夠創造出像圍棋這樣優雅、美觀且富有深度的新游戲,而不僅僅是玩好一個已有的游戲
根據 Hassabis 的分析,當前 AI 系統要達到 AGI 水平,主要缺失以下幾個核心能力:
直覺飛躍 (Intuitive Leaps):頂尖的科學家之所以偉大,不在于他們的技術能力,而在于他們能夠進行創造性的、跨領域的聯想和模式匹配,實現直覺上的突破。目前的 AI 更擅長漸進式的改進,而非這種根本性的思維跳躍
一致性與可靠性 (Consistency):他反駁了當前某些模型已達到博士級智能的說法,認為這種描述是無稽之談(此處內涵Sam Altman ,) 。雖然模型在某些方面表現出色,但它們在整體能力上遠未達到博士水平。一個簡單的問題,如果換種方式提問,模型就可能在高中數學甚至簡單的計數上犯錯。一個真正的 AGI 系統不應出現這種不一致性
持續學習 (Continual Learning):模型需要具備在線學習的能力,能夠實時地接收新知識或根據反饋調整自身行為,而不是依賴于大規模的離線重新訓練
基于以上判斷,Hassabis 預測,我們距離能夠完成上述任務的 AGI 系統大約還有 5 到 10 年 的時間。他傾向于認為,僅僅依靠擴大模型規模 (scaling) 可能不足以實現 AGI,我們可能還需要 一到兩個目前尚未出現的理論性突破
同時,他也回應了關于大語言模型性能增長放緩或趨于一致的觀點。他表示,在 Google DeepMind 內部,他們并未觀察到這種停滯。相反,他們仍然看到技術以極快的速度在進步。他認為,外界之所以有這種感覺,可能是因為只關注了語言模型這一個維度。而 Google DeepMind 正在更廣闊的領域取得突破,例如前面提到的 Genie 世界模型、VEO 視頻模型,以及像 Nano-Banana 這樣的創意工具,這些都展示了 AI 能力仍在飛速擴展
AI 賦能科學與創意:從 Isomorphic Labs 到 Nano-Banana
Hassabis 強調,利用 AI 加速科學發現和改善人類健康,是他投身 AI 事業的初衷和最終目標。他認為這是 AI 最重要的應用方向,而 AGI 將成為科學研究的終極工具。DeepMind 在這方面已經取得了一系列成就,除了眾所周知的 AlphaFold,AI 還被應用于材料設計、控制核聚變反應堆中的等離子體、天氣預測以及解決奧數難題等多個領域
為了將 AI 在生物科學領域的突破商業化并產生更大影響,Hassabis 同時還領導著一家名為 Isomorphic Labs 的公司
Isomorphic Labs 的使命:這家公司可以被看作是 AlphaFold 的延伸。AlphaFold 解決了蛋白質結構預測這一關鍵問題,但這只是藥物發現漫長流程中的一步。Isomorphic Labs 的目標是構建一系列“鄰近的 AlphaFold” (adjacent AlphaFolds),用 AI 解決藥物研發中的其他瓶頸問題,例如設計能夠精確結合到蛋白質特定靶點且副作用最小的化學分子
重塑藥物發現流程:Hassabis 的愿景是,在未來十年內,利用 AI 將傳統需要數年甚至十年的藥物發現周期,縮短到幾周甚至幾天。目前,Isomorphic Labs 已經與禮來 (Eli Lilly)、諾華 (Novartis) 等制藥巨頭建立了合作伙伴關系,并擁有自己的內部藥物研發項目,專注于癌癥、免疫學等領域。他透露,預計明年將進入臨床前階段
除了硬核的科學應用,Hassabis 也對 AI 在創意領域的潛力感到興奮,并以 Google 最近火爆全網的圖像生成工具 Nano-Banana 為例,闡述了 AI 如何實現“創造力的大眾化” 。
Nano-Banana 的獨特之處:它不僅是一個頂級的圖像生成器,其最強大的特性之一是一致性和對指令的精確遵循。用戶可以反復迭代,對圖像的特定部分進行修改,而模型會保持其他部分不變。這種可控性讓用戶能夠最終得到自己心中所想的完美效果
賦能專業人士與大眾:Hassabis 認為 AI 創意工具將帶來兩個層面的影響
1.大眾化:像 Nano-Banana 這樣的工具,讓任何沒有專業技能(如 Photoshop)的普通人都能輕松創作出高質量的視覺內容,無需學習復雜的軟件界面。這極大地降低了創作的門檻
2.超級賦能專業人士:同時,AI 也為頂尖的專業創作者(如電影導演)提供了強大的助力。它能讓這些專業人士的生產力提升 10 倍甚至 100 倍,他們可以低成本、快速地嘗試各種創意想法,從而更快地實現其藝術愿景
未來的娛樂形態:Hassabis 展望,未來的娛樂可能會演變成一種新的藝術形式,其中包含共同創作的元素。頂尖的創意大師將構建引人入勝的動態世界和故事情節,而普通用戶也能在這些世界中進行某種程度的共同創作。這種互動式的、個性化的內容體驗,將由像 Genie 這樣的技術驅動,最終可能改變我們消費和參與娛樂內容的方式
AI 的底層架構與未來展望:混合模型、能源消耗與科學黃金時代
在訪談的最后部分,Hassabis 深入探討了支撐 AI 發展的底層技術架構、備受關注的能源問題,并對未來十年做出了展望。
關于模型架構,他解釋了當前許多先進 AI 系統,包括 AlphaFold,實際上采用的是一種混合模型的設計。這種架構結合了兩種不同方法的優點:
概率性學習組件:這部分基于神經網絡和 Transformer 等技術,從海量數據中學習模式和規律。它具有強大的泛化能力,但其表現依賴于數據的質量和數量
確定性規則組件:在許多科學領域(如生物、化學),我們并沒有足夠的數據來讓模型從零開始學習所有知識。因此,需要將一些已知的、確定性的物理或化學規則(例如原子間的鍵角、原子不能重疊等)作為約束或先驗知識直接構建到模型中
Hassabis 指出,這種混合架構的挑戰在于如何讓學習系統和手工設計的規則系統協同工作。AlphaGo 就是一個典型的例子,它結合了用于評估棋局模式的神經網絡和用于規劃搜索的蒙特卡洛樹搜索算法。他認為,最終的目標是盡可能將規則組件中的知識“上游化” (upstream it into the learning component),即通過改進學習算法,讓模型能夠通過端到端學習自主發現這些規律,就像 AlphaZero 所做的那樣,它擺脫了對人類棋譜數據的依賴,實現了更強的通用性
對于 AI 發展帶來的能源消耗激增問題,Hassabis 提出了一個雙向的觀點。
效率的提升:一方面,Google DeepMind 一直在努力提升模型的效率。因為服務數十億用戶的內部需求(如 AI 概覽)要求模型必須具備極低的延遲和成本。通過蒸餾等技術(用一個大模型來訓練一個性能相近的小模型),過去兩年模型的效率已經提升了 10 倍到 100 倍
前沿探索的需求:另一方面,盡管服務端的模型效率在提高,但對能源的總需求并未減少。這是因為研究人員仍在不斷探索 AGI 的邊界,需要訓練更大、更復雜的前沿模型
AI 的能源回報:他堅信,從長遠來看,AI 為解決能源和氣候變化問題所做的貢獻,將遠遠超過其自身的能源消耗。AI 可以在優化電網系統、設計新型材料和能源、提升能源使用效率等方面發揮巨大作用
最后,當被問及對未來十年的預測時,Hassabis 認為,我們將在未來十年內擁有真正的 AGI。而 AGI 的到來,將開啟一個科學的新文藝復興和黃金時代。屆時,從能源到人類健康,各個領域的科學發現都將以前所未有的速度涌現,深刻地改變人類社會
參考:
https://www.youtube.com/watch?v=Kr3Sh2PKA8Y
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.