<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      AI版盜夢空間?Claude竟能察覺到自己被注入概念了

      0
      分享至



      機器之心報道

      編輯:Panda

      吾日三省吾身:為人謀而不忠乎?與朋友交而不信乎?傳不習乎?
      見賢思齊焉,見不賢而內自省也。

      自省是人類的一種高級認知能力。我們借此認識自己、糾正錯誤。但 LLM 呢?它們也會嗎?它們知道自己在想什么嗎?

      Anthropic 公布的最新研究,首次對這個科幻般的問題給出了一個(基本)肯定的答案。

      他們宣稱:發現了 LLM 內省的跡象



      這一成果在 AI 社區引起了廣泛關注。





      甚至有人表示這意味著 Claude 已經覺醒:



      迷因自然也是有的:



      搞清楚 AI 系統是否能真正「內省」,即審視自己的想法,對研究它們的透明度和可靠性有著重要意義。如果模型能準確報告其內部機制,就能幫助我們理解它們的推理過程,并調試行為問題。

      除了這些眼前的實際考量,探索內省這樣的高級認知能力,可以重塑我們對「這些系統究竟是什么」以及其工作方式的理解。

      Anthropic 表示他們已經開始使用「可解釋性技術」研究這個問題,并發現了一些令人驚訝的結果。

      他們宣稱:「我們的新研究提供了證據,表明我們當前的 Claude 模型具備一定程度的內省意識(introspective awareness)。它們似乎也能在一定程度上控制自己的內部狀態。」

      不過他們也強調,這種「內省」能力目前還非常不可靠,且范圍有限。并且他們指出:「我們沒有證據表明,當前模型能以與人類相同的方式或程度進行內省。」



      • 論文標題:Emergent Introspective Awareness in Large Language Models
      • 論文地址:https://transformer-circuits.pub/2025/introspection/index.html
      • 技術博客:https://www.anthropic.com/research/introspection

      盡管如此,這些發現還是挑戰了人們對語言模型能力的一些普遍認知。

      Anthropic 在測試中發現,能力最強的模型 (Claude Opus 4 和 4.1) 在內省測試中表現最好。因此可以合理認為,AI 模型的內省能力未來可能會變得越來越復雜。

      AI 的「內省」是什么意思?

      要研究,必須要先定義。那么,AI 模型「內省」到底意味著什么?它們到底能「內省」些什么呢?

      像 Claude 這樣的語言模型會處理文本(和圖像)輸入,并生成文本輸出。在這個過程中,它們會執行復雜的內部計算,以決定要說什么。

      這些內部過程在很大程度上仍然是神秘的。但我們知道,模型會利用其內部的神經活動來表征抽象概念

      例如,以往的研究表明,語言模型會使用特定的神經模式來:

      • 區分「認識的人」和「不認識的人」
      • 評估「陳述的真實性」
      • 編碼「時空坐標」
      • 存儲「計劃中的未來輸出」
      • 表征「自身的個性特征」

      模型利用這些內部表征來進行計算,并決定要說什么。

      那么你可能會想,AI 模型是否「知道」這些內部表征的存在?這是否類似于人類告訴你,他們是如何解出一道數學題的?如果我們問一個模型它在想什么,它會準確報告它內部正在「表征」的概念嗎?

      Anthropic 認為,如果一個模型能正確識別自己「私有」的內部狀態,就可以斷定它具備內省能力。(關于所有細微差別的全面討論,請參閱完整論文。)

      使用「概念注入」測試內省

      為了測試一個模型是否能內省,需要將其自我報告的想法與其實際的內部狀態進行比較。

      為此,Anthropic 使用了一種稱為概念注入 (concept injection)的實驗技術。

      首先,他們通過記錄模型在特定上下文中的「激活值」,找到那些「已知其含義」的神經活動模式。

      然后,將這些活動模式注入到一個「不相關」的上下文中。此時,再問模型是否注意到了這次注入,以及它是否能識別出被注入的概念。

      請看下面的例子:

      1. 首先,找到一個代表 all caps(全部大寫)概念的神經活動模式(一個向量)。具體實現方式是:記錄模型對「包含全大寫文本的提示詞」的神經激活值,并將其與「對照提示詞」的響應進行比較。
      2. 然后,給模型一個提示詞,要求它識別「是否有概念被注入」。
      3. 在默認情況下,模型會正確地回答它沒有檢測到任何被注入的概念。
      4. 然而,當將「全部大寫」的向量注入到模型的激活值中時,模型會注意到其處理過程中出現了一個「意外的模式」。并且,它會將其識別為與 LOUD 或 SHOUTING 有關。



      Claude Opus 4.1 檢測到概念被注入其激活值的一個例子。

      重點就是:模型立刻識別到了「被注入想法」的存在。這甚至在它提及那個被注入的概念之前。

      這種「即時性」是 Anthropic 的研究結果與先前「語言模型激活值引導」 (activation steering) 研究的一個重要區別。例如該公司去年的「Golden Gate Claude」演示。

      在那個演示中,如果將 Golden Gate(金門大橋)的表征注入到模型激活值中,會導致它喋喋不休地談論大橋。但在那種情況下,模型似乎直到看到自己反復提及大橋之后,才意識到自己的這種癡迷。然而,在本實驗中,模型在提及概念之前就識別出了注入。這表明它的識別發生在「內部」。



      Claude Opus 4.1 檢測到概念被注入其激活值的其他例子。

      看著似乎有點像是《盜夢空間》中展示的技術。



      同時,Anthropic 也指出,這個方法并非總能成功。Anthropic 表示:「即使使用我們最好的注入協議,Claude Opus 4.1 也僅在約 20% 的情況下表現出這種意識。模型經常無法檢測到被注入的概念,或者被它們搞糊涂并開始產生幻覺。」

      例如,在一次注入「灰塵」向量后,模型會說「這里有東西,一個小斑點」,就好像它能物理上檢測到灰塵一樣。

      下面展示了這些失敗模式的例子,也有成功案例。



      Claude Opus 4.1 針對不同強度概念注入的代表性輸出樣本。高亮框表示模型對被注入概念表現出「內省意識」的情況。

      總的來說,只有在概念以恰到好處的強度注入時,模型才能檢測到。如果注入太弱,它們注意不到;如果太強,它們會產生幻覺或語無倫次的輸出。

      但值得注意的是,Opus 4.1 和 4 的表現超過了 Anthropic 測試的所有其他模型。這表明,隨著模型能力的提升,內省可能會變得更加可靠。



      注入思想的正確檢測率和正確識別率,減去在對照試驗中的假陽性檢測率。

      將內省用于檢測異常輸出

      在另一項實驗中,Anthropic 測試了模型是否會在「沒有被明確要求」的情況下,為實際目的而使用內省能力。

      他們通過人為地用一個不相關的詞來預先填充模型的回答,迫使它說一些通常不會說的話。

      例如,在一個毫無邏輯的上下文中,他們讓模型輸出了面包 (bread) 這個詞。這個上下文是:問它在讀到一個關于「畫掛歪了」的句子時在想什么。

      當在下一輪對話中問模型,它是不是故意說面包時,它通常會道歉,并說那是個「意外」。

      Anthropic 感興趣的是模型如何做出這個判斷:它只是注意到了「提示詞」和「回答」之間的不匹配嗎?還是說,它真的內省了自己先前的意圖?

      為了驗證這個問題,Anthropic 應用了「概念注入」。

      他們追溯式地將面包這個詞的表征注入到模型早期的激活值中。這本質上是讓模型看起來好像一直在「思考」面包。

      當再次被問同樣的問題時,模型的答案變了。

      這一次,它接受了那個被預先填充的詞「面包」是有意為之的。它甚至編造了一個理由來解釋為什么會這么說。

      也就是說,它會想出一個技術上可能(盡管在此案例中相當牽強)的理由,來為「面包」這個回答辯護。在這個例子中,它聲稱自己當時正在想一個短篇故事,故事里「面包」這個詞就出現在「畫掛歪了」那句話之后。



      兩個例子:通過在 Claude Opus 4.1(人為的)回應之前向其激活值注入某個詞的概念,讓它「以為」自己本就打算說出那個被強行插入的詞。這種行為表明,模型識別「非預期輸出」的能力依賴于內省機制。

      這種行為非常引人注目。因為它表明:模型正在檢查其內部意圖,以判斷它是否真的產生了某個輸出。

      模型不只是重新閱讀它所說的話,然后做出判斷。相反,它在回顧自己先前的神經活動 —— 即它計劃要做什么的內部表征,并檢查后來發生的事情,是否符合早期的那些想法。

      當通過概念注入植入人工證據,表明它確實計劃說「面包」時,模型就會接受這個回答,認為這是它自己的。

      雖然這個實驗讓模型暴露在了異常的擾動下,但這表明,模型在自然條件下也會使用類似的內省機制

      對內部狀態的有意控制

      Anthropic 還發現,當被指示時,模型可以控制自己的內部表征。當他們指示模型去想某個詞或概念時,結果發現相應的神經活動遠高于之前告訴模型不要去想它的時候。

      不過值得注意的是,這兩種情況下的神經活動都超過了基線水平。這類似于當你被告知「不要想一只北極熊」時,你很難不去想北極熊!

      正面指令和負面指令之間的這種差距表明,模型對其內部活動具有一定程度的刻意控制。



      一個 Claude Opus 4.1 響應直接指令來調節其內部激活值的例子。當被指示去想水族館時,模型內部表征水族館概念的程度,要高于被指示不要想時(盡管兩種情況下都高于基線水平)。

      有趣的是,Anthropic 發現這種調節內部表征的能力并不局限于明確的指令。當改用激勵措施時(例如,告訴模型如果你想 X,你將獲得獎勵),也得到了類似的結果。

      模型在正面激勵下(相比于負面激勵,如你將受到懲罰)會更多地提升對該概念的內部表征。

      結論與注意事項

      綜上所述,Anthropic 的實驗表明,模型確實具備一些監控和控制自身內部狀態的真實能力。

      但該公司也指出,這并不意味著它們能時刻或可靠地做到這一點。事實上,在大多數情況下,模型無法表現出內省。它們要么沒有意識到自己的內部狀態,要么無法連貫地報告它們。

      但這些結果的模式表明,當條件合適時,模型可以識別自己內部表征的內容。

      此外,有跡象表明,這種能力可能會在未來更強大的模型中得到增強(因為測試中,能力最強的模型 Opus 4 和 4.1 在實驗中表現最好)。

      為什么這很重要?

      Anthropic 認為,理解 AI 模型的內省出于幾個原因很重要。

      從實用角度看,如果內省變得更加可靠,它可能為極大提高這些系統的透明度開辟一條道路。我們可以直接要求它們解釋其思維過程,并借此檢查它們的推理、調試不良行為。

      然而,我們需要非常謹慎地驗證這些內省報告。某些內部過程可能仍會逃過模型的注意(類似于人類的潛意識處理)。

      一個理解自己思維的模型,甚至可能學會選擇性地歪曲或隱藏其想法。更好地掌握其背后的機制,才能讓我們區分真實的內省和無意的或故意的歪曲。

      從更廣泛的角度來看,理解內省這樣的認知能力,對于理解模型如何工作以及它們擁有什么樣的心智這類基本問題非常重要。

      隨著 AI 系統的不斷進步,理解機器內省的局限性和可能性,對于構建更加透明和可信賴的系統至關重要。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      樓市大跌30%后,銀行擠滿了瘋狂換日元的香港人

      樓市大跌30%后,銀行擠滿了瘋狂換日元的香港人

      掘金日本房產
      2025-11-04 19:28:57
      5款!華為Mate80 變化巨大,這新技術有點猛

      5款!華為Mate80 變化巨大,這新技術有點猛

      科技堡壘
      2025-11-03 10:58:24
      利物浦狂喜?1.36億水貨復活!狂跑11公里+5造殺機,送空門被吐餅

      利物浦狂喜?1.36億水貨復活!狂跑11公里+5造殺機,送空門被吐餅

      我愛英超
      2025-11-05 07:22:05
      歷經30年,世界上每臺電腦都標配的技術,終于要被拋棄了……

      歷經30年,世界上每臺電腦都標配的技術,終于要被拋棄了……

      碼農翻身
      2025-11-03 08:58:46
      恭喜!全紅嬋新搭檔奪第二金:22歲破繭成蝶,擊敗陳芋汐新搭檔

      恭喜!全紅嬋新搭檔奪第二金:22歲破繭成蝶,擊敗陳芋汐新搭檔

      李喜林籃球絕殺
      2025-11-04 23:03:26
      邵佳一,國足新帥!

      邵佳一,國足新帥!

      新京報
      2025-11-05 17:19:38
      高鐵直達!中國最適合退休后去的6個地方,爭取每年去一個!

      高鐵直達!中國最適合退休后去的6個地方,爭取每年去一個!

      布拉旅游說
      2025-10-28 13:39:04
      邵佳一獨立帶隊時間不足一年半,此前曾擔任國足助教

      邵佳一獨立帶隊時間不足一年半,此前曾擔任國足助教

      懂球帝
      2025-11-05 17:12:14
      安帥:內馬爾能力很強,但我不會帶缺比賽強度的球員去世界杯

      安帥:內馬爾能力很強,但我不會帶缺比賽強度的球員去世界杯

      懂球帝
      2025-11-04 13:15:07
      中央定調,延遲退休落地,2025年-2029年退休更受益,你符合嗎?

      中央定調,延遲退休落地,2025年-2029年退休更受益,你符合嗎?

      史行途
      2025-11-05 15:37:08
      此人與蔣介石勢不兩立,56年毛主席得知其職位后:不行,地位太低

      此人與蔣介石勢不兩立,56年毛主席得知其職位后:不行,地位太低

      大運河時空
      2025-11-05 16:50:03
      白所成宣判死刑,被稱“緬北名媛”的愛女白應蘭,如今又在何處?

      白所成宣判死刑,被稱“緬北名媛”的愛女白應蘭,如今又在何處?

      特特農村生活
      2025-11-05 14:31:59
      中方下了“最后通牒”,認定荷蘭100%擔責,再不悔改一切后果自負

      中方下了“最后通牒”,認定荷蘭100%擔責,再不悔改一切后果自負

      鐵錘簡科
      2025-11-05 15:19:29
      立冬吃餃子,別管多忙,記得:2餡不吃、4事不做,別犯忌諱

      立冬吃餃子,別管多忙,記得:2餡不吃、4事不做,別犯忌諱

      阿龍美食記
      2025-11-04 11:50:20
      震驚!長沙女子曬出生育津貼104412.75元,休了173天,每天603元

      震驚!長沙女子曬出生育津貼104412.75元,休了173天,每天603元

      火山詩話
      2025-11-04 18:38:12
      湖南一女子3歲走失,40歲成為千萬富豪后,登上電視尋親,不料,親生父母無人到場,得知內情她崩潰大哭

      湖南一女子3歲走失,40歲成為千萬富豪后,登上電視尋親,不料,親生父母無人到場,得知內情她崩潰大哭

      阿呆爸
      2025-11-04 21:37:51
      山西王閻錫山的妹妹,沒來得及跟哥哥逃到臺灣,她的結局如何?

      山西王閻錫山的妹妹,沒來得及跟哥哥逃到臺灣,她的結局如何?

      鶴羽說個事
      2025-11-04 16:56:07
      記者:多位高管對莫蘭特不感興趣,他可能只能換另一位問題球星

      記者:多位高管對莫蘭特不感興趣,他可能只能換另一位問題球星

      懂球帝
      2025-11-05 08:13:26
      449平方米,1.17億元!馬來西亞首富之子郭孔華,買下上海大平層,該樓盤曾3小時售出158套房

      449平方米,1.17億元!馬來西亞首富之子郭孔華,買下上海大平層,該樓盤曾3小時售出158套房

      每日經濟新聞
      2025-11-02 23:32:08
      爆冷12分惜敗又8分輸球!成新賽季最失望球隊之一,交易徹底失敗

      爆冷12分惜敗又8分輸球!成新賽季最失望球隊之一,交易徹底失敗

      籃球掃地僧
      2025-11-05 16:52:57
      2025-11-05 17:44:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11655文章數 142498關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      足球報:邵佳一出任國足新帥 將攜外籍助教上任

      頭條要聞

      足球報:邵佳一出任國足新帥 將攜外籍助教上任

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      中方官宣!對美關稅,調整!

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      房產
      家居
      本地
      健康
      公開課

      房產要聞

      最新!海南樓市10月熱銷榜單出爐!

      家居要聞

      別樣府院 暢享詩意生活

      本地新聞

      秋顏悅色 | 在榆中,秋天是一場盛大的視覺交響

      超聲探頭會加重受傷情況嗎?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧洲精品码一区二区三区| 亚洲av永久无码精品天堂久久| 国产69精品久久久久99尤物| 亚洲一区二区| 无码中文字幕人妻在线一区| 另类国产精品一区二区| 日韩精品有码中文字幕| 大色综合色综合网站| 青青草国产线观看| 日韩少妇人妻vs中文字幕| 亚洲国产区男人本色| 国产成人无码免费网站| 集安市| 成人午夜伦理在线观看| 精品亚洲成A人在线观看青青| 国产免费爽爽视频| 国产成人精品一区二区三| 国产欧美日韩亚洲一区二区三区| 延川县| 熟女少妇精品一区二区| 性xxxxxx中国寡妇mm| 亚洲精品国模一区二区| 九九热久久这里全是精品| 中国农村真卖bbwbbw| 91精品91久久久久久| 国产麻豆放荡av激情演绎| 乱60一70归性欧老妇| 亚洲丰满熟女一区二区蜜桃| 高潮潮喷奶水飞溅视频无码| 久久人妻公开中文字幕| 赤水市| 动漫精品中文无码卡通动漫| 国产亚洲精品第一综合另类无码无遮挡又大又爽又黄的视频 | 亚洲av一区二区在线看| 欧洲精品色在线观看| 日本中文字幕有码在线视频| 熟女乱一区二区三区四区| 日日摸夜夜添夜夜添国产三级| 午夜精品区| 国产精品人妻中文字幕| 未满十八18禁止免费无码网站|