網易首頁 > 網易號 > 正文申請入駐

《紐約客》丨人工智能真的在思考嗎？

2025-11-04 11:20:32　來源: 邸報

上海舉報

分享至

The Case That A.I. Is Thinking

ChatGPT 并無內在生命，但它似乎清楚自己在談論什么。

本文即將刊登于2025 年 11 月 10 日的《紐約客》雜志，印刷版標題為“

Open Mind

”。

作者：

作家兼計算機程序員詹姆斯·薩默斯從 2018 年開始為《紐約客》撰稿。

當一種“理解的假象”逼真到何種程度時，你才會不再將其稱為假象？

人工智能公司Anthropic的首席執行官達里奧·阿莫代伊預測，到2027年，在生物學、數學、工程學、寫作等領域“比諾貝爾獎得主更聰明”的人工智能或許會投入使用。他設想數百萬個模型副本高速運轉，每個副本都在開展獨立研究，形成一個“數據中心里的天才國度”。今年6月，OpenAI的薩姆·奧爾特曼撰文稱，人工智能行業即將打造出“數字超級智能”。他斷言：“2030年代很可能會與以往任何時代都截然不同。”與此同時，大多數人目前日常接觸的人工智能工具，讓人不禁想起微軟辦公軟件曾推出的“助手”Clippy——它實際上更像個愛糾纏的角色。Zoom的一款人工智能工具會提示你向它提問“有哪些會議破冰問題？”，或是指令它“寫一條表達感謝的短消息”。Siri擅長設置提醒，但在其他方面用處不大。我的一位朋友在Gmail中看到一個按鈕，上面寫著“致謝并講述趣聞”。他點擊后，谷歌的人工智能編造了一個關于他去土耳其旅行的有趣故事，而他從未去過那里。

人工智能倉促且不均衡的推出，營造出一種迷霧氛圍，讓人很容易得出“這里沒什么值得關注——全是炒作”的結論。誠然，炒作確實不少：阿莫代伊預測的時間線帶有科幻色彩（人工智能模型的改進速度并沒有那么快）。但認為大型語言模型只是在隨意拼湊文字，同樣是一種一廂情愿的想法。我過去曾認同這種觀點，也曾從“人工智能與真正的智能或理解毫無關系”這一想法中尋求慰藉，甚至還為它的缺陷感到慶幸——就像在為人類“主隊”加油。后來，作為一名程序員，我開始在工作中使用人工智能，因為擔心不這樣做就會落后。（我所在的雇主是一家貿易公司，對包括Anthropic在內的多家人工智能公司有投資，也建立了合作關系。）許多人認為，編寫代碼是人工智能最擅長的領域；代碼比散文更具結構性，而且通常能通過自動化方式驗證某個程序是否可行。我對人工智能的看法很快發生了轉變。起初，我會咨詢人工智能模型，而非自己去查找資料；接著，我會讓它們處理一些獨立的小問題；最終，我把真正的工作——那些我整個職業生涯都在學習處理的工作——也交給了它們。我看到這些模型能在幾秒鐘內理解數千行代碼中的復雜細節，它們能發現細微的漏洞，還能設計出復雜的新功能。后來，我被調到一個快速發展的團隊，該團隊旨在更好地利用人工智能工具，并開發我們自己的工具。

據說科幻作家威廉·吉布森曾提出，未來早已到來，只是尚未均勻分布——這或許能解釋為何人工智能似乎催生了兩種截然不同的群體：一種對此不屑一顧，另一種則為之著迷。在日常生活中，能預訂假期或申報稅務的人工智能“代理”并不成功，但我的一些同事在編寫代碼時，大部分工作都依賴人工智能，有時還會同時運行多個編程代理。這些模型有時會犯低級錯誤，或陷入無意義的循環，但隨著我學會高效使用它們，曾經需要一個月完成的工作，現在一個晚上就能搞定。不久前，我在完全不懂如何開發iOS應用的情況下，做出了兩款iOS應用。

我曾有一位上司說，求職面試應考察應聘者的優勢，而非糾結于其是否存在缺點。大型語言模型確實有很多缺點：眾所周知，它們會編造看似合理的虛假信息；即便你出錯，它們也可能一味順從；簡單的謎題就能將它們難住。但我還記得，如今人工智能模型所具備的顯著優勢——流暢的表達、自然的銜接、“理解”他人意圖的能力——在過去曾被視為難以實現的“圣杯”。當你親身體驗到這些優勢時，就會不禁思考：當一種“理解的假象”逼真到何種程度時，你才會不再將其稱為假象？

今年夏天一個酷熱難耐的日子，我的朋友馬克斯和家人在公園游玩。不知為何，兒童灑水器沒有開啟，而馬克斯的妻子之前向大家保證，她丈夫能修好它。面對滿臉通紅、年齡在六到七歲之間的孩子們，馬克斯走進工具棚，希望能找到一個顯眼的“開啟”開關。然而，他看到的卻是一堆錯綜復雜的舊管道和閥門。就在他準備放棄時，突然心血來潮，拿出手機，將灑水器的照片以及自己遇到的問題描述一起輸入ChatGPT-4o。人工智能“思考”了片刻——也可能并沒有真正思考——但它隨即表示，馬克斯看到的是灌溉系統中常見的防回流裝置。它問馬克斯是否看到底部那個黃色的球閥，認為那個閥門很可能控制著水流。馬克斯按照提示操作，水流隨即噴出，公園里頓時響起孩子們的歡呼聲。

ChatGPT是在毫無意義地拼湊文字，還是真的理解了這個問題？這個答案或許能讓我們對“理解”本身有重要的認識。加州大學伯克利分校的神經科學教授多麗絲·曹（音譯）告訴我：“神經科學家必須面對這個令人清醒的事實：機器學習的進展，比神經科學在過去一百年間的任何發現，都更能讓我們了解智能的本質。”多麗絲·曹最知名的研究是破解恒河猴感知面部的機制。她的團隊成功預測出猴子看到特定面部時哪些神經元會被激活；更令人驚嘆的是，只要知道神經元的激活模式，他們就能還原出對應的面部圖像。他們的研究借鑒了關于“人工智能模型如何表征面部”的相關成果。如今，她最喜歡問別人的一個問題是：“你從ChatGPT中獲得的最深刻洞見是什么？”她表示：“我自己的答案是，我認為它徹底揭開了思考的神秘面紗。”

關于我們如何走到如今這一步，最基礎的解釋大致如下：20世紀80年代，一小群認知心理學家和計算機科學家嘗試在機器中模擬思考過程。其中較知名的有戴維·魯梅爾哈特、杰弗里·辛頓和詹姆斯·麥克萊蘭，他們后來在加州大學圣迭戈分校成立了一個研究小組。他們認為，大腦是一個龐大的網絡，神經元以特定模式激活，進而引發其他神經元群的激活，如此循環往復；這種模式的動態變化就是思考。大腦通過改變神經元之間連接的強度來實現學習。關鍵在于，這些科學家通過構建人工神經網絡，并應用一種名為“梯度下降”的簡單算法來提高其預測準確性，從而模擬了大腦的這一學習過程。（可以將該算法比作一個從山頂走向山谷的徒步者：要最終找到下山的路，一個簡單的策略就是確保每一步都朝著地勢更低的方向前進。）在大型網絡中使用這類算法的技術，被稱為深度學習。

人工智能領域的其他研究者曾懷疑，神經網絡是否足夠復雜，能否應對現實世界的任務。但隨著網絡規模不斷擴大，它們開始解決此前無法攻克的難題。過去，有人會花費整篇博士論文的篇幅，研究區分手寫數字或識別圖像中人臉的技術；而后來，深度學習算法只需消化相關數據，就能掌握問題的核心細節，讓那些研究項目顯得過時。很快，深度學習在語音識別、翻譯、圖像描述、棋類游戲等領域取得突破，甚至解決了蛋白質折疊預測這一難題。

如今最先進的人工智能模型，是通過一種名為“下一個token預測”的技術，在互聯網的大量數據上訓練而成的。模型通過猜測接下來會出現的內容，再將猜測結果與實際出現的內容進行對比，以此完成學習。一旦猜測錯誤，神經元之間連接的強度就會調整，這正是梯度下降算法的作用。最終，模型在文本預測方面變得極為精準，以至于看起來仿佛真的具備知識儲備，且表達富有邏輯。這一點值得我們思考：一群研究者致力于探尋大腦運作的奧秘，當他們構建的模型規模接近大腦大小時，模型開始展現出那些曾被認為只有大腦級智能才能實現的能力。難道他們真的找到了一直在尋找的答案？

對于這種將人工智能簡單化、理想化的解讀，人們難免會持反對態度。泰德·蔣曾有力地反駁過這一觀點，他在2023年初為本刊撰寫了一篇文章，標題為《ChatGPT不過是互聯網的模糊JPEG格式文件》。他的言下之意帶有貶低意味：ChatGPT僅此而已。你把整個互聯網的數據輸入一個程序，它只是將這些數據不完美地“反芻”出來，就像一張照片經過多次復制后變得模糊——但它的表達能力足以讓你誤以為這個程序具備智能。今年春天，語言學家埃米莉·M·本德和社會學家亞歷克斯·漢納在合著的《人工智能騙局》一書中，也提出了類似觀點。本德最知名的言論，是將大型語言模型描述為“隨機鸚鵡”。《大西洋月刊》的書評作者泰勒·奧斯汀·哈珀宣稱：“大型語言模型過去沒有、現在沒有、將來也永遠不會‘理解’任何事物。”這些模型“生成文字并非通過思考，而是基于統計規律，猜測下一個詞匯可能是什么”。哈珀在這些技術層面的論點之外，還加入了道德層面的批判：人工智能讓強者更富，消耗的能源加速了氣候變化，還導致勞動者被邊緣化。他最終得出結論：“人工智能行業的根基就是一場騙局。”

一位頂尖神經科學家認為，ChatGPT“徹底揭開了思考的神秘面紗”。

但從道德層面反對人工智能，或許最終比從技術層面反對更有說服力。哈佛大學認知科學家塞繆爾·J·格什曼并非人工智能的盲目吹捧者，他告訴我：“‘隨機鸚鵡’這種說法早該過時了。只有最頑固的懷疑論者，才會否認這些系統實現了許多人曾認為無法實現的功能。”普林斯頓大學的認知神經科學家喬納森·科恩承認人工智能存在局限性，但他認為，在某些情況下，大型語言模型似乎模擬了人類大腦中一個龐大且重要的區域。科恩表示：“大致來說，大腦的新皮層就是一個深度學習機制。”相對于體型而言，人類的新皮層比其他動物大得多；而新皮層最大的物種——大象、海豚、大猩猩、黑猩猩、狗——也恰好是最具智能的物種。

2003年，機器學習研究者埃里克·B·鮑姆出版了一本名為《何為思考？》的書（我在大學圖書館的書架上偶然發現了它，書名瞬間吸引了我）。鮑姆論點的核心在于：理解即壓縮，壓縮即理解。在統計學中，若要理解圖表上的數據點，可以采用線性回歸技術，在這些點之間繪制一條“最佳擬合線”。如果數據中存在潛在規律——比如你在繪制鞋碼與身高的對應關系——這條最佳擬合線就能簡潔地呈現這一規律，并預測新數據點可能出現的位置。我們可以將新皮層理解為一種“提煉”工具：它從海量原始體驗（聲音、圖像及其他感官信息）中提取核心，形成類似“最佳擬合線”的模型，用于進行預測。嬰兒探索世界時，會嘗試猜測玩具的味道，或是食物掉落到地上后會滾向何方。當預測出錯時，神經元之間的連接就會調整。久而久之，這些連接逐漸捕捉到數據中的規律，形成一個對世界的壓縮模型。

人工神經網絡與真實的神經網絡一樣，也能對體驗進行壓縮。目前最優秀的開源人工智能模型之一DeepSeek，能夠創作小說、提供醫療診斷建議，還能以數十種語言進行母語級別的交流。它是通過“下一個token預測”技術，在數太字節的數據上訓練而成的。但當你下載這個模型時，會發現它的大小僅為訓練數據的六百分之一。它就像是互聯網的“精華版”，經過壓縮后可以安裝在筆記本電腦上。泰德·蔣將早期版本的ChatGPT比作“互聯網的模糊JPEG”，這種說法有一定道理——但在我看來，這正是這些模型變得越來越智能的原因。蔣在文章中指出，若要壓縮一個包含數百萬道算術題的文本文件，你不會將其制成壓縮文件，而是會編寫一個計算器程序。他寫道：“只有理解了文本內容，才能實現最高程度的壓縮。”或許，大型語言模型已經開始做到這一點。

想到一個計算機程序真的能理解、真的能思考，人們可能會覺得反常，甚至反感。通常，我們認為“思考”是一種有意識的行為，比如像喬伊斯作品中那樣的內心獨白，或是像普魯斯特式白日夢那樣的感官記憶流動；也可能認為思考是一種推理過程：一步步解決問題。在討論人工智能時，我們常常將這些不同類型的思考混為一談，導致判斷過于草率。有一種觀點認為，ChatGPT顯然不會思考，因為它顯然不會像普魯斯特那樣陷入遐想；另一種觀點則認為，ChatGPT顯然會思考，因為它解決邏輯謎題的能力比人類更強。

但實際情況要微妙得多。我不認為ChatGPT有內在生命，但它似乎確實清楚自己在談論什么。“理解”——即明白正在發生的事情——是一種未被充分重視的思考方式，因為它大多發生在無意識層面。印第安納大學認知科學與比較文學教授道格拉斯·霍夫施塔特常說，認知的本質就是識別。霍夫施塔特因《哥德爾、埃舍爾、巴赫：集異璧之大成》一書聞名，該書于1980年獲得普利策獎，探討了心智與意識的奧秘。霍夫施塔特經過數十年研究提出，“看作”是思考的核心。你將一塊色斑“看作”汽車，將另一塊色斑“看作”鑰匙扣；無論字母“A”以何種字體呈現，或是書寫得多么潦草，你都能認出它。霍夫施塔特認為，同樣的過程也存在于更抽象的感知層面。國際象棋大師審視棋盤時，多年的經驗讓他能瞬間“看出”：白方的象處于弱勢；這個殘局很可能是平局。你看到河中的漩渦，就知道此處不宜過河；你意識到正在參加的會議是“皇帝的新衣”式的鬧劇；我將近兩歲的兒子發現，上午晚些時候推嬰兒車散步時，或許能有機會吃到可頌面包，于是便會提出相應要求。在霍夫施塔特看來，這就是智能的本質。

霍夫施塔特是最早對人工智能持“貶低態度”的人之一，我過去的懷疑態度也深受他的影響。他曾表示，大多數人工智能研究與真正的思考毫無關系，21世紀初我上大學時，也認同這一觀點。但也有例外：他認為加州大學圣迭戈分校的研究小組很有研究價值，同時也欽佩一位不太知名的芬蘭裔美國認知科學家彭蒂·卡內瓦的成果——卡內瓦發現了高維空間數學的一些特殊屬性。在高維空間中，任意兩個隨機點可能相距極遠；但反常的是，每個點周圍都存在大量“鄰近點”，因此只要你足夠“靠近”某個點，就能輕松找到它。這讓卡內瓦聯想到記憶的運作方式。在1988年出版的《稀疏分布式記憶》一書中，卡內瓦提出，思想、感官體驗和記憶可以表現為高維空間中的坐標。大腦似乎是存儲這類信息的理想“硬件”：每段記憶都有一個獨特的“地址”，這個地址由你回憶時激活的神經元決定。新的體驗會激活新的神經元群，形成新的“地址”。兩個“地址”可能在多個方面存在差異，但在某些方面又具有相似性；一種感知或一段記憶，會觸發與之相近的其他記憶。干草的氣味會讓你想起夏令營的回憶；貝多芬《第五交響曲》的前三個音符響起，你就會聯想到第四個音符；一個你從未見過的象棋棋局，會讓你想起過去的對局——并非所有對局，而是那些與當前棋局“相似”的對局。

霍夫施塔特意識到，卡內瓦所描述的，本質上是一種“看作”機器。他在為卡內瓦著作撰寫的序言中表示：“彭蒂·卡內瓦的記憶模型讓我深受啟發，這是我首次看到有研究能讓我隱約感受到，理解大腦整體運作機制這一遙遠目標或許并非無法實現。”無論是喬伊斯式的內心獨白、普魯斯特式的遐想，還是邏輯推理，任何形式的思考都依賴于“相關事物在恰當的時機出現在腦海中”。正是通過這種方式，我們才能判斷自己所處的情境。

后來，卡內瓦的著作逐漸被淡忘，霍夫施塔特本人的影響力也有所下降——除非他偶爾站出來批評某款新的人工智能系統。2018年，他在談到谷歌翻譯及類似技術時表示：“這種方法存在一個核心缺陷，用一個詞就能概括：理解。”但2023年推出的GPT-4，徹底改變了霍夫施塔特的看法。他最近告訴我：“這些系統的某些表現讓我感到震驚，即便在十年前，這都是無法想象的。”最堅定的“貶低者”也無法再堅持原來的觀點：眼前的程序能達到專業水平的翻譯效果，能進行類比、即興發揮、歸納總結。我們憑什么說它不具備理解能力？他說：“它們的行為與思考極為相似，你甚至可以說，它們在思考，只是方式與人類有所不同。”

大型語言模型的核心，似乎正是這種“看作”機器。它們用一系列數字來表示每個詞在高維空間中的坐標——即“向量”。在GPT-4中，一個詞向量擁有數千個維度，這些維度描述了該詞與其他所有詞在相似度和差異度上的細微差別。在訓練過程中，每當大型語言模型出現預測錯誤，就會調整某個詞的坐標；在文本中同時出現的詞，在空間中會被調整得更接近。這就形成了一種極為密集的用法和語義表征——在這種表征中，類比變成了一個幾何問題。一個經典例子是：若取“巴黎”的詞向量，減去“法國”的詞向量，再加上“意大利”的詞向量，得到的結果最接近的向量就是“羅馬”。大型語言模型還能通過對圖像內容、氛圍甚至人物表情進行編碼，為圖像生成“向量”，編碼的細節足夠豐富，既能讓模型以特定風格重新繪制圖像，也能讓它寫出一段關于圖像的描述文字。

當馬克斯在公園向ChatGPT求助解決灑水器問題時，這個模型并非只是在輸出文字。它會將管道的照片與馬克斯的問題描述一同壓縮成一個向量，這個向量捕捉了問題最核心的特征。該向量就像一個“地址”，用于調用空間中相近的詞匯和概念；這些概念又會進一步調用其他相關概念，幫助模型逐步理解當前場景，并結合這些“在腦海中”的概念組織回答。

幾個月前，我看到一篇對Anthropic研究員特倫頓·布里肯的采訪。他曾與同事合作，深入研究該公司旗下系列人工智能模型“克勞德”的內部機制（他們的研究尚未經過同行評審，也未在科學期刊上發表）。他的團隊發現了多組人工神經元，或稱“特征”，這些特征會在克勞德準備表達特定內容時被激活。研究發現，這些“特征”就像控制概念的“音量旋鈕”——把某個“旋鈕”調大，模型就會只圍繞對應的概念展開表述。（在一項類似“思維控制”的實驗中，研究人員調大了代表“金門大橋”的特征；當一名用戶向克勞德索要巧克力蛋糕食譜時，模型給出的配料清單中竟包含“1/4杯干霧”和“1杯溫海水”。）

布里肯在采訪中提到了谷歌的“Transformer架構”——這是構建神經網絡的一套技術方案，目前主流的人工智能模型都以其為基礎（ChatGPT中的“T”即代表“Transformer”）。他認為，Transformer架構核心的數學原理，與數十年前彭蒂·卡內瓦在《稀疏分布式記憶》中提出的模型高度相似。

人工智能與人類大腦存在相似性，這值得驚訝嗎？畢竟，大型語言模型是人工神經網絡，而其研發過程也有心理學家和神經科學家參與。更令人意外的是：當這些模型在反復練習“預測詞匯”這種機械任務時，竟開始表現出與大腦相似的行為模式。如今，神經科學與人工智能領域正逐漸交融，大腦研究專家甚至將人工智能當作一種“模式生物”來使用。麻省理工學院的神經科學家埃夫莉娜·費多倫科就利用大型語言模型研究大腦處理語言的機制。她告訴我：“我從沒想過自己這輩子能研究這類問題，也從沒想過我們能擁有足夠先進的模型。”

人們常說人工智能是“黑箱”，但事實或許恰恰相反：科學家可以探測單個人工神經元的活動，甚至對其進行修改。普林斯頓大學神經科學家肯尼斯·諾曼表示：“擁有一個能體現人類智能理論的可運行系統，這是認知神經科學領域的夢想。”諾曼曾構建過海馬體（大腦中儲存情景記憶的區域）的計算機模型，但過去的模型過于簡單，他只能向模型輸入對人類思維的粗略模擬數據。他說：“現在，你可以給記憶模型輸入與給人類輸入的完全相同的刺激信息。”

萊特兄弟在早期研發飛機時曾研究鳥類。他們發現，鳥類會逆風起飛——盡管普通人可能會認為它們應該順風起飛；鳥類還會調整翼尖來保持平衡。這些發現為他們設計早期滑翔機提供了啟發。之后，他們建造了一個6英尺長的風洞，得以在精確控制的條件下測試多組人工機翼。此后，他們的滑翔機飛行實驗成功率大幅提升。有趣的是，直到他們成功造出可飛行的機器后，人們才真正弄明白鳥類飛行的原理。

人工智能讓科學家得以在“風洞”中研究“思考”本身。Anthropic的研究人員發表過一篇標題頗具爭議的論文——《論大型語言模型的生物學屬性》。他們觀察了克勞德對各類問題的響應過程，并描述了模型中的“電路”——即一系列特征的連鎖反應，這些反應共同完成復雜的計算（調用正確的記憶是思考的第一步，而通過“電路”組合和處理這些記憶，或許就是思考的下一步）。

長期以來，對大型語言模型的一項批評是：由于模型必須逐個生成“token”來構成回答，它們無法進行規劃或推理。但當你讓克勞德為一首詩續寫押韻的對句時，模型中的某個“電路”會先確定新句子的最后一個詞，以確保押韻，隨后再反向推敲整句內容。Anthropic的研究人員認為，這一現象證明他們的模型確實具備規劃能力。只要稍加觀察，你或許會第一次感覺到：我們能窺見“思維”的內在運作過程。

不過，這種“窺見”需要極大的努力。諾曼告訴我：“我擔心的是，人們的態度從‘極度懷疑’一下子變成了‘完全不加防備’。還有很多問題有待解決。”我或許就是諾曼所說的這類人（或許我太容易被《稀疏分布式記憶》與Anthropic模型之間的“相似性”打動）。在過去一兩年里，我開始認同杰弗里·辛頓的觀點。辛頓近期因在人工智能領域的研究獲得諾貝爾獎，他在2020年對記者卡倫·豪表示：“深度學習將無所不能。”

但我們也發現，模型并非越大越好。繪制“模型性能與規模關系”的曲線已開始趨于平緩。要找到模型尚未消化的高質量數據變得越來越難，且計算成本也日益高昂。今年8月，GPT-5發布時，僅實現了小幅改進——這一巨大的失望甚至可能刺破人工智能領域的投資泡沫。當下，我們需要一種“適度的懷疑”：既要正視如今人工智能模型的能力，也不能認為所有難題都已解決。

在這些待解難題中，最關鍵的或許是：如何設計出能像人類一樣高效學習的模型。據估算，GPT-4在訓練過程中接觸了數萬億個詞；而兒童只需接觸數百萬個詞就能流暢表達。認知科學家表示，新生兒的大腦具備某些“歸納偏置”，這些偏置能加速學習過程（當然，大腦本身是數百萬年進化的產物——進化過程本身也可視為一種“訓練數據”的積累）。

例如，人類嬰兒會默認“世界由物體構成”，且“其他生物擁有自己的信念和意圖”。當媽媽說“香蕉”時，嬰兒會將這個詞與媽媽正看著的整個黃色物體關聯——而非僅僅關聯物體的尖端或果皮。嬰兒還會進行“小實驗”：這個東西能吃嗎？那個東西能扔多遠？驅動他們的是欲望、好奇心、挫敗感等情緒。兒童總在嘗試做略微超出自己能力范圍的事。他們的學習之所以高效，是因為這種學習是“具身的”“自適應的”“有意識的”且“持續的”。或許，要真正理解世界，就必須親身參與其中。

相比之下，人工智能的“體驗”極其匱乏，甚至不配被稱為“體驗”。大型語言模型的訓練數據本身已經過高度提煉。加州大學伯克利分校的神經科學家多麗絲·曹告訴我：“我認為這些模型之所以能發揮作用，是因為它們借助了語言的力量。”語言就像“預先咀嚼過的體驗”，其他類型的數據則缺乏如此密集的語義信息。哈佛大學認知科學家格什曼提出疑問：“為什么在視頻數據推理領域，我們沒有看到類似的突破？目前的視覺模型在常識性物理推理方面仍存在困難。”

深度思維公司近期推出的一款模型，能生成“正確混合顏料”“解決迷宮”的視頻，但視頻中也會出現“杯子撞擊后沒有碎裂反而彈起”“繩子被揉成一團卻形成結”等違背物理規律的畫面。曾任職于微軟研究院的認知神經科學家伊達·莫門內賈德做過一項實驗：她讓大型語言模型“虛擬參觀”一棟建筑，隨后詢問模型關于建筑內路線和捷徑的問題——這類空間推理對人類而言輕而易舉。但除了最簡單的場景，人工智能要么答錯，要么會編造不存在的路線。她說：“它們真的會規劃嗎？其實不會。”

在與神經科學家交流的過程中，我能感受到他們的一種擔憂：人工智能行業的發展有些操之過急，缺乏深思熟慮。普林斯頓大學認知科學家布倫登·M·萊克告訴我，如果目標是打造與人類智能相當的人工智能，那么“我們目前的訓練方式是錯誤的”。人工智能完成訓練后，其神經網絡“大腦”就會被“凍結”。即便你告訴模型關于自己的一些信息，它也不會調整內部神經元的連接方式，而是會采用一種簡單的替代方案：記錄一段文字（比如“用戶有一個學步兒童，正在學習法語”），并在你發出后續指令時參考這段記錄。

人類大腦則會持續更新自身，關于這一點，有一個精妙的理論：睡眠時，大腦會將部分情景記憶“回放”給新皮層，以完成對新皮層的訓練。回放的記憶會在你的高維思維空間中留下“印記”；醒來后，你看待世界的方式會發生細微變化。

人工智能領域已對“飛速進展”產生依賴，且在經濟上投入巨大，以至于有時會假裝“進步是必然的”“已無科學問題可解”。但科學有一個棘手的特點：它有時會陷入停滯。硅谷或許會將人工智能公司稱為“實驗室”，將部分員工稱為“研究員”，但從本質上講，該行業的文化是“工程導向”的——即“不管用什么方法，先做出成果再說”。科恩表示：“機器學習領域的研究者很少關注認知科學的歷史，更談不上尊重，這一點令人震驚。”

如今的人工智能模型之所以能成功，得益于數十年前關于大腦的研究發現，但它們與大腦仍有本質區別。哪些差異是“非核心的”，哪些是“根本性的”？每個神經科學研究團隊都有自己偏愛的理論，而這些理論如今終于有了驗證的可能——這在過去是無法實現的。盡管如此，沒人指望能輕易找到答案。普林斯頓大學的諾曼表示，要解決人工智能目前面臨的難題，“需要先精準找出模型在哪些方面未能達到我們期望的智能水平，然后針對性地改進。而這一過程，仍需要人類科學家參與。”

20世紀90年代，數十億美元被投入“人類基因組計劃”，人們認為基因測序或許能解決醫學領域最棘手的問題：癌癥、遺傳病，甚至衰老。那是一個充斥著大話與自信的時代——多莉克隆羊誕生，《侏羅紀公園》上映，生物技術崛起，評論界開始討論“人類是否應該扮演上帝的角色”。但生物學家很快發現，現實遠比想象中復雜。我們沒有治愈癌癥，沒有找到阿爾茨海默病或自閉癥的病因。我們意識到，DNA只是生命故事的一部分。事實上，有人可能會說，生物學曾一度陷入“基因狂熱”——因為我們掌握了研究和理解DNA的技術，便過分關注DNA。

但沒人會認為弗朗西斯·克里克錯了。1953年，他協助證實了DNA的雙螺旋結構，當天他走進劍橋的一家酒吧，宣稱自己“發現了生命的奧秘”。他和同事對“揭開生命神秘面紗”所做的貢獻，幾乎超過任何人。在他們的發現之后的數十年里，科學領域取得了前所未有的豐碩成果，充滿活力。“DNA”成為家喻戶曉的詞匯，每個高中生都知道雙螺旋結構。

如今，在人工智能領域，我們再次陷入這樣一個“大話與自信并存”的時代。薩姆·奧爾特曼表示，計劃籌集5000億美元，在美國建造名為“星門”的新一代人工智能數據中心集群。人們討論“超級智能競賽”時，語氣莊重且急迫，這種態度有時顯得缺乏依據，甚至有些荒謬。但我猜想，阿莫代伊、奧爾特曼等人之所以發表這種“救世主式”的言論，是因為他們相信：智能的基本原理已經被破解，剩下的只是細節問題。

甚至一些神經科學家也認為，我們已經跨越了一個關鍵的門檻。普林斯頓大學的尤里·哈森與科恩、諾曼、萊克是同事，他認為神經網絡“或許是解釋認知的正確模型”。這種觀點既讓他感到興奮，也讓他不安。他說：“我的擔憂與大多數人相反。我擔心的不是這些模型與我們相似，而是我們與這些模型相似。”如果通過簡單的訓練技術，就能讓程序表現出人類般的行為，那或許人類并不像我們想象的那樣特殊。這是否也意味著，人工智能不僅會在知識層面超越我們，還會在判斷力、創造力、洞察力上超越我們——并因此獲得超越人類的權力？

令我意外的是，哈森告訴我，他“近來擔心我們可能真的會弄明白大腦的運作方式。對人類而言，探尋這個問題或許是一個巨大的錯誤”。他將人工智能研究者比作20世紀30年代的核科學家：“對這些人來說，這是他們一生中最有趣的時代。與此同時，他們也清楚自己正在研究的東西，可能對人類產生嚴重影響。但出于求知欲，他們無法停止。”

霍夫施塔特有一本我很喜歡的書，名為《流動的概念與創造性類比：思維基本機制的計算機模型》。上大學時，這本書讓我深受觸動。它的核心觀點是：“何為思考？”這類問題并非單純的哲學問題，而是有切實答案的。1995年該書出版時，霍夫施塔特和他的研究團隊只能隱約指出答案可能是什么。回想這本書，我不禁好奇：看到人工智能研究者或許已經實現了他所渴望的目標——用機械原理解釋思考的基本機制，霍夫施塔特會感到興奮嗎？

但在我們的交談中，他卻顯得極為失望，甚至恐懼。他表示，當前的人工智能研究“雖然印證了我的許多觀點，卻也剝奪了人類的獨特魅力”。“我年輕時，非常想知道創造力的基礎是什么，想了解創造力的機制。這對我來說是一個圣杯。但現在，我希望它能一直是個謎。”或許，思考的奧秘比任何人想象的都要簡單——簡單到一個高中生，甚至一臺機器，都能理解。?

說明：本號刊發來自各方的文章，是為了獲得更全面的信息，不代表本號支持文章中的觀點。由于微信公眾號每天只能推送一次，無法即時更新，本站目前在騰訊新聞發布最新的文章，每天24小時不間斷更新，請收藏以下地址（請完整復制），隨時刷新：

https://news.qq.com/omn/author/8QIf3nxc64AYuDfe4wc%3D

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.