The Case That A.I. Is Thinking
ChatGPT 并無內在生命,但它似乎清楚自己在談論什么。
本文即將刊登于2025 年 11 月 10 日的《紐約客》雜志,印刷版標題為“
Open Mind
”。
作者:
作家兼計算機程序員詹姆斯·薩默斯從 2018 年開始為《紐約客》撰稿。
![]()
當一種“理解的假象”逼真到何種程度時,你才會不再將其稱為假象?
人工智能公司Anthropic的首席執行官達里奧·阿莫代伊預測,到2027年,在生物學、數學、工程學、寫作等領域“比諾貝爾獎得主更聰明”的人工智能或許會投入使用。他設想數百萬個模型副本高速運轉,每個副本都在開展獨立研究,形成一個“數據中心里的天才國度”。今年6月,OpenAI的薩姆·奧爾特曼撰文稱,人工智能行業即將打造出“數字超級智能”。他斷言:“2030年代很可能會與以往任何時代都截然不同。”與此同時,大多數人目前日常接觸的人工智能工具,讓人不禁想起微軟辦公軟件曾推出的“助手”Clippy——它實際上更像個愛糾纏的角色。Zoom的一款人工智能工具會提示你向它提問“有哪些會議破冰問題?”,或是指令它“寫一條表達感謝的短消息”。Siri擅長設置提醒,但在其他方面用處不大。我的一位朋友在Gmail中看到一個按鈕,上面寫著“致謝并講述趣聞”。他點擊后,谷歌的人工智能編造了一個關于他去土耳其旅行的有趣故事,而他從未去過那里。
人工智能倉促且不均衡的推出,營造出一種迷霧氛圍,讓人很容易得出“這里沒什么值得關注——全是炒作”的結論。誠然,炒作確實不少:阿莫代伊預測的時間線帶有科幻色彩(人工智能模型的改進速度并沒有那么快)。但認為大型語言模型只是在隨意拼湊文字,同樣是一種一廂情愿的想法。我過去曾認同這種觀點,也曾從“人工智能與真正的智能或理解毫無關系”這一想法中尋求慰藉,甚至還為它的缺陷感到慶幸——就像在為人類“主隊”加油。后來,作為一名程序員,我開始在工作中使用人工智能,因為擔心不這樣做就會落后。(我所在的雇主是一家貿易公司,對包括Anthropic在內的多家人工智能公司有投資,也建立了合作關系。)許多人認為,編寫代碼是人工智能最擅長的領域;代碼比散文更具結構性,而且通常能通過自動化方式驗證某個程序是否可行。我對人工智能的看法很快發生了轉變。起初,我會咨詢人工智能模型,而非自己去查找資料;接著,我會讓它們處理一些獨立的小問題;最終,我把真正的工作——那些我整個職業生涯都在學習處理的工作——也交給了它們。我看到這些模型能在幾秒鐘內理解數千行代碼中的復雜細節,它們能發現細微的漏洞,還能設計出復雜的新功能。后來,我被調到一個快速發展的團隊,該團隊旨在更好地利用人工智能工具,并開發我們自己的工具。
據說科幻作家威廉·吉布森曾提出,未來早已到來,只是尚未均勻分布——這或許能解釋為何人工智能似乎催生了兩種截然不同的群體:一種對此不屑一顧,另一種則為之著迷。在日常生活中,能預訂假期或申報稅務的人工智能“代理”并不成功,但我的一些同事在編寫代碼時,大部分工作都依賴人工智能,有時還會同時運行多個編程代理。這些模型有時會犯低級錯誤,或陷入無意義的循環,但隨著我學會高效使用它們,曾經需要一個月完成的工作,現在一個晚上就能搞定。不久前,我在完全不懂如何開發iOS應用的情況下,做出了兩款iOS應用。
我曾有一位上司說,求職面試應考察應聘者的優勢,而非糾結于其是否存在缺點。大型語言模型確實有很多缺點:眾所周知,它們會編造看似合理的虛假信息;即便你出錯,它們也可能一味順從;簡單的謎題就能將它們難住。但我還記得,如今人工智能模型所具備的顯著優勢——流暢的表達、自然的銜接、“理解”他人意圖的能力——在過去曾被視為難以實現的“圣杯”。當你親身體驗到這些優勢時,就會不禁思考:當一種“理解的假象”逼真到何種程度時,你才會不再將其稱為假象?
今年夏天一個酷熱難耐的日子,我的朋友馬克斯和家人在公園游玩。不知為何,兒童灑水器沒有開啟,而馬克斯的妻子之前向大家保證,她丈夫能修好它。面對滿臉通紅、年齡在六到七歲之間的孩子們,馬克斯走進工具棚,希望能找到一個顯眼的“開啟”開關。然而,他看到的卻是一堆錯綜復雜的舊管道和閥門。就在他準備放棄時,突然心血來潮,拿出手機,將灑水器的照片以及自己遇到的問題描述一起輸入ChatGPT-4o。人工智能“思考”了片刻——也可能并沒有真正思考——但它隨即表示,馬克斯看到的是灌溉系統中常見的防回流裝置。它問馬克斯是否看到底部那個黃色的球閥,認為那個閥門很可能控制著水流。馬克斯按照提示操作,水流隨即噴出,公園里頓時響起孩子們的歡呼聲。
ChatGPT是在毫無意義地拼湊文字,還是真的理解了這個問題?這個答案或許能讓我們對“理解”本身有重要的認識。加州大學伯克利分校的神經科學教授多麗絲·曹(音譯)告訴我:“神經科學家必須面對這個令人清醒的事實:機器學習的進展,比神經科學在過去一百年間的任何發現,都更能讓我們了解智能的本質。”多麗絲·曹最知名的研究是破解恒河猴感知面部的機制。她的團隊成功預測出猴子看到特定面部時哪些神經元會被激活;更令人驚嘆的是,只要知道神經元的激活模式,他們就能還原出對應的面部圖像。他們的研究借鑒了關于“人工智能模型如何表征面部”的相關成果。如今,她最喜歡問別人的一個問題是:“你從ChatGPT中獲得的最深刻洞見是什么?”她表示:“我自己的答案是,我認為它徹底揭開了思考的神秘面紗。”
關于我們如何走到如今這一步,最基礎的解釋大致如下:20世紀80年代,一小群認知心理學家和計算機科學家嘗試在機器中模擬思考過程。其中較知名的有戴維·魯梅爾哈特、杰弗里·辛頓和詹姆斯·麥克萊蘭,他們后來在加州大學圣迭戈分校成立了一個研究小組。他們認為,大腦是一個龐大的網絡,神經元以特定模式激活,進而引發其他神經元群的激活,如此循環往復;這種模式的動態變化就是思考。大腦通過改變神經元之間連接的強度來實現學習。關鍵在于,這些科學家通過構建人工神經網絡,并應用一種名為“梯度下降”的簡單算法來提高其預測準確性,從而模擬了大腦的這一學習過程。(可以將該算法比作一個從山頂走向山谷的徒步者:要最終找到下山的路,一個簡單的策略就是確保每一步都朝著地勢更低的方向前進。)在大型網絡中使用這類算法的技術,被稱為深度學習。
人工智能領域的其他研究者曾懷疑,神經網絡是否足夠復雜,能否應對現實世界的任務。但隨著網絡規模不斷擴大,它們開始解決此前無法攻克的難題。過去,有人會花費整篇博士論文的篇幅,研究區分手寫數字或識別圖像中人臉的技術;而后來,深度學習算法只需消化相關數據,就能掌握問題的核心細節,讓那些研究項目顯得過時。很快,深度學習在語音識別、翻譯、圖像描述、棋類游戲等領域取得突破,甚至解決了蛋白質折疊預測這一難題。
如今最先進的人工智能模型,是通過一種名為“下一個token預測”的技術,在互聯網的大量數據上訓練而成的。模型通過猜測接下來會出現的內容,再將猜測結果與實際出現的內容進行對比,以此完成學習。一旦猜測錯誤,神經元之間連接的強度就會調整,這正是梯度下降算法的作用。最終,模型在文本預測方面變得極為精準,以至于看起來仿佛真的具備知識儲備,且表達富有邏輯。這一點值得我們思考:一群研究者致力于探尋大腦運作的奧秘,當他們構建的模型規模接近大腦大小時,模型開始展現出那些曾被認為只有大腦級智能才能實現的能力。難道他們真的找到了一直在尋找的答案?
對于這種將人工智能簡單化、理想化的解讀,人們難免會持反對態度。泰德·蔣曾有力地反駁過這一觀點,他在2023年初為本刊撰寫了一篇文章,標題為《ChatGPT不過是互聯網的模糊JPEG格式文件》。他的言下之意帶有貶低意味:ChatGPT僅此而已。你把整個互聯網的數據輸入一個程序,它只是將這些數據不完美地“反芻”出來,就像一張照片經過多次復制后變得模糊——但它的表達能力足以讓你誤以為這個程序具備智能。今年春天,語言學家埃米莉·M·本德和社會學家亞歷克斯·漢納在合著的《人工智能騙局》一書中,也提出了類似觀點。本德最知名的言論,是將大型語言模型描述為“隨機鸚鵡”。《大西洋月刊》的書評作者泰勒·奧斯汀·哈珀宣稱:“大型語言模型過去沒有、現在沒有、將來也永遠不會‘理解’任何事物。”這些模型“生成文字并非通過思考,而是基于統計規律,猜測下一個詞匯可能是什么”。哈珀在這些技術層面的論點之外,還加入了道德層面的批判:人工智能讓強者更富,消耗的能源加速了氣候變化,還導致勞動者被邊緣化。他最終得出結論:“人工智能行業的根基就是一場騙局。”
![]()
一位頂尖神經科學家認為,ChatGPT“徹底揭開了思考的神秘面紗”。
但從道德層面反對人工智能,或許最終比從技術層面反對更有說服力。哈佛大學認知科學家塞繆爾·J·格什曼并非人工智能的盲目吹捧者,他告訴我:“‘隨機鸚鵡’這種說法早該過時了。只有最頑固的懷疑論者,才會否認這些系統實現了許多人曾認為無法實現的功能。”普林斯頓大學的認知神經科學家喬納森·科恩承認人工智能存在局限性,但他認為,在某些情況下,大型語言模型似乎模擬了人類大腦中一個龐大且重要的區域。科恩表示:“大致來說,大腦的新皮層就是一個深度學習機制。”相對于體型而言,人類的新皮層比其他動物大得多;而新皮層最大的物種——大象、海豚、大猩猩、黑猩猩、狗——也恰好是最具智能的物種。
2003年,機器學習研究者埃里克·B·鮑姆出版了一本名為《何為思考?》的書(我在大學圖書館的書架上偶然發現了它,書名瞬間吸引了我)。鮑姆論點的核心在于:理解即壓縮,壓縮即理解。在統計學中,若要理解圖表上的數據點,可以采用線性回歸技術,在這些點之間繪制一條“最佳擬合線”。如果數據中存在潛在規律——比如你在繪制鞋碼與身高的對應關系——這條最佳擬合線就能簡潔地呈現這一規律,并預測新數據點可能出現的位置。我們可以將新皮層理解為一種“提煉”工具:它從海量原始體驗(聲音、圖像及其他感官信息)中提取核心,形成類似“最佳擬合線”的模型,用于進行預測。嬰兒探索世界時,會嘗試猜測玩具的味道,或是食物掉落到地上后會滾向何方。當預測出錯時,神經元之間的連接就會調整。久而久之,這些連接逐漸捕捉到數據中的規律,形成一個對世界的壓縮模型。
人工神經網絡與真實的神經網絡一樣,也能對體驗進行壓縮。目前最優秀的開源人工智能模型之一DeepSeek,能夠創作小說、提供醫療診斷建議,還能以數十種語言進行母語級別的交流。它是通過“下一個token預測”技術,在數太字節的數據上訓練而成的。但當你下載這個模型時,會發現它的大小僅為訓練數據的六百分之一。它就像是互聯網的“精華版”,經過壓縮后可以安裝在筆記本電腦上。泰德·蔣將早期版本的ChatGPT比作“互聯網的模糊JPEG”,這種說法有一定道理——但在我看來,這正是這些模型變得越來越智能的原因。蔣在文章中指出,若要壓縮一個包含數百萬道算術題的文本文件,你不會將其制成壓縮文件,而是會編寫一個計算器程序。他寫道:“只有理解了文本內容,才能實現最高程度的壓縮。”或許,大型語言模型已經開始做到這一點。
想到一個計算機程序真的能理解、真的能思考,人們可能會覺得反常,甚至反感。通常,我們認為“思考”是一種有意識的行為,比如像喬伊斯作品中那樣的內心獨白,或是像普魯斯特式白日夢那樣的感官記憶流動;也可能認為思考是一種推理過程:一步步解決問題。在討論人工智能時,我們常常將這些不同類型的思考混為一談,導致判斷過于草率。有一種觀點認為,ChatGPT顯然不會思考,因為它顯然不會像普魯斯特那樣陷入遐想;另一種觀點則認為,ChatGPT顯然會思考,因為它解決邏輯謎題的能力比人類更強。
但實際情況要微妙得多。我不認為ChatGPT有內在生命,但它似乎確實清楚自己在談論什么。“理解”——即明白正在發生的事情——是一種未被充分重視的思考方式,因為它大多發生在無意識層面。印第安納大學認知科學與比較文學教授道格拉斯·霍夫施塔特常說,認知的本質就是識別。霍夫施塔特因《哥德爾、埃舍爾、巴赫:集異璧之大成》一書聞名,該書于1980年獲得普利策獎,探討了心智與意識的奧秘。霍夫施塔特經過數十年研究提出,“看作”是思考的核心。你將一塊色斑“看作”汽車,將另一塊色斑“看作”鑰匙扣;無論字母“A”以何種字體呈現,或是書寫得多么潦草,你都能認出它。霍夫施塔特認為,同樣的過程也存在于更抽象的感知層面。國際象棋大師審視棋盤時,多年的經驗讓他能瞬間“看出”:白方的象處于弱勢;這個殘局很可能是平局。你看到河中的漩渦,就知道此處不宜過河;你意識到正在參加的會議是“皇帝的新衣”式的鬧劇;我將近兩歲的兒子發現,上午晚些時候推嬰兒車散步時,或許能有機會吃到可頌面包,于是便會提出相應要求。在霍夫施塔特看來,這就是智能的本質。
霍夫施塔特是最早對人工智能持“貶低態度”的人之一,我過去的懷疑態度也深受他的影響。他曾表示,大多數人工智能研究與真正的思考毫無關系,21世紀初我上大學時,也認同這一觀點。但也有例外:他認為加州大學圣迭戈分校的研究小組很有研究價值,同時也欽佩一位不太知名的芬蘭裔美國認知科學家彭蒂·卡內瓦的成果——卡內瓦發現了高維空間數學的一些特殊屬性。在高維空間中,任意兩個隨機點可能相距極遠;但反常的是,每個點周圍都存在大量“鄰近點”,因此只要你足夠“靠近”某個點,就能輕松找到它。這讓卡內瓦聯想到記憶的運作方式。在1988年出版的《稀疏分布式記憶》一書中,卡內瓦提出,思想、感官體驗和記憶可以表現為高維空間中的坐標。大腦似乎是存儲這類信息的理想“硬件”:每段記憶都有一個獨特的“地址”,這個地址由你回憶時激活的神經元決定。新的體驗會激活新的神經元群,形成新的“地址”。兩個“地址”可能在多個方面存在差異,但在某些方面又具有相似性;一種感知或一段記憶,會觸發與之相近的其他記憶。干草的氣味會讓你想起夏令營的回憶;貝多芬《第五交響曲》的前三個音符響起,你就會聯想到第四個音符;一個你從未見過的象棋棋局,會讓你想起過去的對局——并非所有對局,而是那些與當前棋局“相似”的對局。
霍夫施塔特意識到,卡內瓦所描述的,本質上是一種“看作”機器。他在為卡內瓦著作撰寫的序言中表示:“彭蒂·卡內瓦的記憶模型讓我深受啟發,這是我首次看到有研究能讓我隱約感受到,理解大腦整體運作機制這一遙遠目標或許并非無法實現。”無論是喬伊斯式的內心獨白、普魯斯特式的遐想,還是邏輯推理,任何形式的思考都依賴于“相關事物在恰當的時機出現在腦海中”。正是通過這種方式,我們才能判斷自己所處的情境。
后來,卡內瓦的著作逐漸被淡忘,霍夫施塔特本人的影響力也有所下降——除非他偶爾站出來批評某款新的人工智能系統。2018年,他在談到谷歌翻譯及類似技術時表示:“這種方法存在一個核心缺陷,用一個詞就能概括:理解。”但2023年推出的GPT-4,徹底改變了霍夫施塔特的看法。他最近告訴我:“這些系統的某些表現讓我感到震驚,即便在十年前,這都是無法想象的。”最堅定的“貶低者”也無法再堅持原來的觀點:眼前的程序能達到專業水平的翻譯效果,能進行類比、即興發揮、歸納總結。我們憑什么說它不具備理解能力?他說:“它們的行為與思考極為相似,你甚至可以說,它們在思考,只是方式與人類有所不同。”
大型語言模型的核心,似乎正是這種“看作”機器。它們用一系列數字來表示每個詞在高維空間中的坐標——即“向量”。在GPT-4中,一個詞向量擁有數千個維度,這些維度描述了該詞與其他所有詞在相似度和差異度上的細微差別。在訓練過程中,每當大型語言模型出現預測錯誤,就會調整某個詞的坐標;在文本中同時出現的詞,在空間中會被調整得更接近。這就形成了一種極為密集的用法和語義表征——在這種表征中,類比變成了一個幾何問題。一個經典例子是:若取“巴黎”的詞向量,減去“法國”的詞向量,再加上“意大利”的詞向量,得到的結果最接近的向量就是“羅馬”。大型語言模型還能通過對圖像內容、氛圍甚至人物表情進行編碼,為圖像生成“向量”,編碼的細節足夠豐富,既能讓模型以特定風格重新繪制圖像,也能讓它寫出一段關于圖像的描述文字。
當馬克斯在公園向ChatGPT求助解決灑水器問題時,這個模型并非只是在輸出文字。它會將管道的照片與馬克斯的問題描述一同壓縮成一個向量,這個向量捕捉了問題最核心的特征。該向量就像一個“地址”,用于調用空間中相近的詞匯和概念;這些概念又會進一步調用其他相關概念,幫助模型逐步理解當前場景,并結合這些“在腦海中”的概念組織回答。
幾個月前,我看到一篇對Anthropic研究員特倫頓·布里肯的采訪。他曾與同事合作,深入研究該公司旗下系列人工智能模型“克勞德”的內部機制(他們的研究尚未經過同行評審,也未在科學期刊上發表)。他的團隊發現了多組人工神經元,或稱“特征”,這些特征會在克勞德準備表達特定內容時被激活。研究發現,這些“特征”就像控制概念的“音量旋鈕”——把某個“旋鈕”調大,模型就會只圍繞對應的概念展開表述。(在一項類似“思維控制”的實驗中,研究人員調大了代表“金門大橋”的特征;當一名用戶向克勞德索要巧克力蛋糕食譜時,模型給出的配料清單中竟包含“1/4杯干霧”和“1杯溫海水”。)
布里肯在采訪中提到了谷歌的“Transformer架構”——這是構建神經網絡的一套技術方案,目前主流的人工智能模型都以其為基礎(ChatGPT中的“T”即代表“Transformer”)。他認為,Transformer架構核心的數學原理,與數十年前彭蒂·卡內瓦在《稀疏分布式記憶》中提出的模型高度相似。
人工智能與人類大腦存在相似性,這值得驚訝嗎?畢竟,大型語言模型是人工神經網絡,而其研發過程也有心理學家和神經科學家參與。更令人意外的是:當這些模型在反復練習“預測詞匯”這種機械任務時,竟開始表現出與大腦相似的行為模式。如今,神經科學與人工智能領域正逐漸交融,大腦研究專家甚至將人工智能當作一種“模式生物”來使用。麻省理工學院的神經科學家埃夫莉娜·費多倫科就利用大型語言模型研究大腦處理語言的機制。她告訴我:“我從沒想過自己這輩子能研究這類問題,也從沒想過我們能擁有足夠先進的模型。”
人們常說人工智能是“黑箱”,但事實或許恰恰相反:科學家可以探測單個人工神經元的活動,甚至對其進行修改。普林斯頓大學神經科學家肯尼斯·諾曼表示:“擁有一個能體現人類智能理論的可運行系統,這是認知神經科學領域的夢想。”諾曼曾構建過海馬體(大腦中儲存情景記憶的區域)的計算機模型,但過去的模型過于簡單,他只能向模型輸入對人類思維的粗略模擬數據。他說:“現在,你可以給記憶模型輸入與給人類輸入的完全相同的刺激信息。”
萊特兄弟在早期研發飛機時曾研究鳥類。他們發現,鳥類會逆風起飛——盡管普通人可能會認為它們應該順風起飛;鳥類還會調整翼尖來保持平衡。這些發現為他們設計早期滑翔機提供了啟發。之后,他們建造了一個6英尺長的風洞,得以在精確控制的條件下測試多組人工機翼。此后,他們的滑翔機飛行實驗成功率大幅提升。有趣的是,直到他們成功造出可飛行的機器后,人們才真正弄明白鳥類飛行的原理。
人工智能讓科學家得以在“風洞”中研究“思考”本身。Anthropic的研究人員發表過一篇標題頗具爭議的論文——《論大型語言模型的生物學屬性》。他們觀察了克勞德對各類問題的響應過程,并描述了模型中的“電路”——即一系列特征的連鎖反應,這些反應共同完成復雜的計算(調用正確的記憶是思考的第一步,而通過“電路”組合和處理這些記憶,或許就是思考的下一步)。
長期以來,對大型語言模型的一項批評是:由于模型必須逐個生成“token”來構成回答,它們無法進行規劃或推理。但當你讓克勞德為一首詩續寫押韻的對句時,模型中的某個“電路”會先確定新句子的最后一個詞,以確保押韻,隨后再反向推敲整句內容。Anthropic的研究人員認為,這一現象證明他們的模型確實具備規劃能力。只要稍加觀察,你或許會第一次感覺到:我們能窺見“思維”的內在運作過程。
不過,這種“窺見”需要極大的努力。諾曼告訴我:“我擔心的是,人們的態度從‘極度懷疑’一下子變成了‘完全不加防備’。還有很多問題有待解決。”我或許就是諾曼所說的這類人(或許我太容易被《稀疏分布式記憶》與Anthropic模型之間的“相似性”打動)。在過去一兩年里,我開始認同杰弗里·辛頓的觀點。辛頓近期因在人工智能領域的研究獲得諾貝爾獎,他在2020年對記者卡倫·豪表示:“深度學習將無所不能。”
但我們也發現,模型并非越大越好。繪制“模型性能與規模關系”的曲線已開始趨于平緩。要找到模型尚未消化的高質量數據變得越來越難,且計算成本也日益高昂。今年8月,GPT-5發布時,僅實現了小幅改進——這一巨大的失望甚至可能刺破人工智能領域的投資泡沫。當下,我們需要一種“適度的懷疑”:既要正視如今人工智能模型的能力,也不能認為所有難題都已解決。
在這些待解難題中,最關鍵的或許是:如何設計出能像人類一樣高效學習的模型。據估算,GPT-4在訓練過程中接觸了數萬億個詞;而兒童只需接觸數百萬個詞就能流暢表達。認知科學家表示,新生兒的大腦具備某些“歸納偏置”,這些偏置能加速學習過程(當然,大腦本身是數百萬年進化的產物——進化過程本身也可視為一種“訓練數據”的積累)。
例如,人類嬰兒會默認“世界由物體構成”,且“其他生物擁有自己的信念和意圖”。當媽媽說“香蕉”時,嬰兒會將這個詞與媽媽正看著的整個黃色物體關聯——而非僅僅關聯物體的尖端或果皮。嬰兒還會進行“小實驗”:這個東西能吃嗎?那個東西能扔多遠?驅動他們的是欲望、好奇心、挫敗感等情緒。兒童總在嘗試做略微超出自己能力范圍的事。他們的學習之所以高效,是因為這種學習是“具身的”“自適應的”“有意識的”且“持續的”。或許,要真正理解世界,就必須親身參與其中。
相比之下,人工智能的“體驗”極其匱乏,甚至不配被稱為“體驗”。大型語言模型的訓練數據本身已經過高度提煉。加州大學伯克利分校的神經科學家多麗絲·曹告訴我:“我認為這些模型之所以能發揮作用,是因為它們借助了語言的力量。”語言就像“預先咀嚼過的體驗”,其他類型的數據則缺乏如此密集的語義信息。哈佛大學認知科學家格什曼提出疑問:“為什么在視頻數據推理領域,我們沒有看到類似的突破?目前的視覺模型在常識性物理推理方面仍存在困難。”
深度思維公司近期推出的一款模型,能生成“正確混合顏料”“解決迷宮”的視頻,但視頻中也會出現“杯子撞擊后沒有碎裂反而彈起”“繩子被揉成一團卻形成結”等違背物理規律的畫面。曾任職于微軟研究院的認知神經科學家伊達·莫門內賈德做過一項實驗:她讓大型語言模型“虛擬參觀”一棟建筑,隨后詢問模型關于建筑內路線和捷徑的問題——這類空間推理對人類而言輕而易舉。但除了最簡單的場景,人工智能要么答錯,要么會編造不存在的路線。她說:“它們真的會規劃嗎?其實不會。”
在與神經科學家交流的過程中,我能感受到他們的一種擔憂:人工智能行業的發展有些操之過急,缺乏深思熟慮。普林斯頓大學認知科學家布倫登·M·萊克告訴我,如果目標是打造與人類智能相當的人工智能,那么“我們目前的訓練方式是錯誤的”。人工智能完成訓練后,其神經網絡“大腦”就會被“凍結”。即便你告訴模型關于自己的一些信息,它也不會調整內部神經元的連接方式,而是會采用一種簡單的替代方案:記錄一段文字(比如“用戶有一個學步兒童,正在學習法語”),并在你發出后續指令時參考這段記錄。
人類大腦則會持續更新自身,關于這一點,有一個精妙的理論:睡眠時,大腦會將部分情景記憶“回放”給新皮層,以完成對新皮層的訓練。回放的記憶會在你的高維思維空間中留下“印記”;醒來后,你看待世界的方式會發生細微變化。
人工智能領域已對“飛速進展”產生依賴,且在經濟上投入巨大,以至于有時會假裝“進步是必然的”“已無科學問題可解”。但科學有一個棘手的特點:它有時會陷入停滯。硅谷或許會將人工智能公司稱為“實驗室”,將部分員工稱為“研究員”,但從本質上講,該行業的文化是“工程導向”的——即“不管用什么方法,先做出成果再說”。科恩表示:“機器學習領域的研究者很少關注認知科學的歷史,更談不上尊重,這一點令人震驚。”
如今的人工智能模型之所以能成功,得益于數十年前關于大腦的研究發現,但它們與大腦仍有本質區別。哪些差異是“非核心的”,哪些是“根本性的”?每個神經科學研究團隊都有自己偏愛的理論,而這些理論如今終于有了驗證的可能——這在過去是無法實現的。盡管如此,沒人指望能輕易找到答案。普林斯頓大學的諾曼表示,要解決人工智能目前面臨的難題,“需要先精準找出模型在哪些方面未能達到我們期望的智能水平,然后針對性地改進。而這一過程,仍需要人類科學家參與。”
20世紀90年代,數十億美元被投入“人類基因組計劃”,人們認為基因測序或許能解決醫學領域最棘手的問題:癌癥、遺傳病,甚至衰老。那是一個充斥著大話與自信的時代——多莉克隆羊誕生,《侏羅紀公園》上映,生物技術崛起,評論界開始討論“人類是否應該扮演上帝的角色”。但生物學家很快發現,現實遠比想象中復雜。我們沒有治愈癌癥,沒有找到阿爾茨海默病或自閉癥的病因。我們意識到,DNA只是生命故事的一部分。事實上,有人可能會說,生物學曾一度陷入“基因狂熱”——因為我們掌握了研究和理解DNA的技術,便過分關注DNA。
但沒人會認為弗朗西斯·克里克錯了。1953年,他協助證實了DNA的雙螺旋結構,當天他走進劍橋的一家酒吧,宣稱自己“發現了生命的奧秘”。他和同事對“揭開生命神秘面紗”所做的貢獻,幾乎超過任何人。在他們的發現之后的數十年里,科學領域取得了前所未有的豐碩成果,充滿活力。“DNA”成為家喻戶曉的詞匯,每個高中生都知道雙螺旋結構。
如今,在人工智能領域,我們再次陷入這樣一個“大話與自信并存”的時代。薩姆·奧爾特曼表示,計劃籌集5000億美元,在美國建造名為“星門”的新一代人工智能數據中心集群。人們討論“超級智能競賽”時,語氣莊重且急迫,這種態度有時顯得缺乏依據,甚至有些荒謬。但我猜想,阿莫代伊、奧爾特曼等人之所以發表這種“救世主式”的言論,是因為他們相信:智能的基本原理已經被破解,剩下的只是細節問題。
甚至一些神經科學家也認為,我們已經跨越了一個關鍵的門檻。普林斯頓大學的尤里·哈森與科恩、諾曼、萊克是同事,他認為神經網絡“或許是解釋認知的正確模型”。這種觀點既讓他感到興奮,也讓他不安。他說:“我的擔憂與大多數人相反。我擔心的不是這些模型與我們相似,而是我們與這些模型相似。”如果通過簡單的訓練技術,就能讓程序表現出人類般的行為,那或許人類并不像我們想象的那樣特殊。這是否也意味著,人工智能不僅會在知識層面超越我們,還會在判斷力、創造力、洞察力上超越我們——并因此獲得超越人類的權力?
令我意外的是,哈森告訴我,他“近來擔心我們可能真的會弄明白大腦的運作方式。對人類而言,探尋這個問題或許是一個巨大的錯誤”。他將人工智能研究者比作20世紀30年代的核科學家:“對這些人來說,這是他們一生中最有趣的時代。與此同時,他們也清楚自己正在研究的東西,可能對人類產生嚴重影響。但出于求知欲,他們無法停止。”
霍夫施塔特有一本我很喜歡的書,名為《流動的概念與創造性類比:思維基本機制的計算機模型》。上大學時,這本書讓我深受觸動。它的核心觀點是:“何為思考?”這類問題并非單純的哲學問題,而是有切實答案的。1995年該書出版時,霍夫施塔特和他的研究團隊只能隱約指出答案可能是什么。回想這本書,我不禁好奇:看到人工智能研究者或許已經實現了他所渴望的目標——用機械原理解釋思考的基本機制,霍夫施塔特會感到興奮嗎?
但在我們的交談中,他卻顯得極為失望,甚至恐懼。他表示,當前的人工智能研究“雖然印證了我的許多觀點,卻也剝奪了人類的獨特魅力”。“我年輕時,非常想知道創造力的基礎是什么,想了解創造力的機制。這對我來說是一個圣杯。但現在,我希望它能一直是個謎。”或許,思考的奧秘比任何人想象的都要簡單——簡單到一個高中生,甚至一臺機器,都能理解。?
說明:本號刊發來自各方的文章,是為了獲得更全面的信息,不代表本號支持文章中的觀點。由于微信公眾號每天只能推送一次,無法即時更新,本站目前在騰訊新聞發布最新的文章,每天24小時不間斷更新,請收藏以下地址(請完整復制),隨時刷新:
https://news.qq.com/omn/author/8QIf3nxc64AYuDfe4wc%3D
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.