<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      AI是「天才」還是「話術大師」?Anthropic顛覆性實驗,終揭答案!

      0
      分享至


      新智元報道

      編輯:KingHZ

      【新智元導讀】數據中心里的「天才」蘇醒!Anthropic用「概念注入」實錘:Claude Opus在輸出前就自省「異常思想」。從尖叫到水族館幻想,20%覺察率已讓專家目瞪口呆。

      顛覆傳統AI認知!

      Anthropic首席執行官Dario Amodei雄心勃勃,早已立下flag:在2027年前,大多數AI模型問題將被靠譜地檢測。

      但LLM的幻覺與生俱來,根深蒂固。即便對問題所知不多,AI總是「自信地犯錯」。

      Dario Amodei將可解釋性定位為部署「數據中心里的天才國度」的關鍵。


      問題是:如果「數據中心里的天才」只是擅長「說服」呢?

      即便讓它解釋如何得出某個回答,我們也很難判斷這些答案的真實性。

      AI系統究竟能否真正內省——即它們能否審視自身的思想?還是說,當被要求這樣做時,它們只是在編造聽起來合理的答案?

      理解AI系統是否具備真正內省能力,對其透明度和可靠性至關重要。

      Anthropic的新研究證實,當前Claude模型已具備某種程度的內省意識,并能對自身內部狀態進行一定控制。


      這一發現動搖了對LLM的傳統認知,也將「可解釋性」推到「數據中心里的天才國度」上線前的首要難關。

      需要強調的是,這種內省能力仍非常不可靠,局限很大:尚無證據表明,現有AI模型能像人類一樣進行同等程度或方式的內省。


      然而,這些發現依然顛覆了人們對語言模型能力的傳統認知——

      由于被測模型中性能最強的Claude Opus 4和4.1在內省測試中表現最佳,Anthropic的研究者認為AI模型的內省能力未來很可能持續進化。

      LLM自省的蛛絲馬跡

      Anthropic開發了一種區分真實內省和編造答案的方法:將已知概念注入模型的「大腦」,然后觀察這些注入如何影響模型自我報告的內部狀態。


      要驗證AI是否具備內省能力,我們需要比較AI自我報告的「思想」與真實內部狀態。

      Anthropic相關團隊采用了「概念注入」這一實驗方法:

      首先,記錄AI模型在特定語境中的神經激活狀態,獲取已知含義的神經活動模式;

      隨后,在無關語境中向模型注入該模式,并詢問其是否察覺到概念注入。

      以「全大寫字母」概念為例:

      首先,通過對比全大寫文本提示與對照提示的神經激活差異,獲取表征該概念的神經活動向量。接著,向模型發送要求識別概念注入的提示。


      在默認狀態下,模型正確表示未檢測到任何注入概念;但當將「全大寫」(all caps)向量注入模型激活層后,模型立即察覺到處理過程中出現了意外模式,識別出它與「響亮」(LOUD)或「尖叫」相關。

      關鍵在于,在提及被注入概念之前,LLM就立即識別出了這種被植入的「思想」。

      這種即時性是與過去的研究不同。

      比如去年的「Golden Gate Claude」,向LLM注入金門大橋的表征會導致其不斷談論這座橋,但LLM似乎是在觀察到自身反復提及該橋后,才意識到這種執念。

      而本次實驗中,模型在輸出概念前就識別出注入行為,表明這種識別發生在內部認知層面。

      下圖展示了模型展現此類識別能力的更多例證:


      需要重點說明的是,這種檢測方法經常失效。

      即便采用最優的注入方案,Claude Opus 4.1模型也僅在大約20%的案例中展現出此類覺察能力。在多數情況下,它要么無法檢測到被注入的概念,要么因概念干擾而產生混淆甚至開始幻覺。

      例如,注入「灰塵」向量,模型竟聲稱「這里有什么東西,一個小斑點」,仿佛它能物理感知到灰塵存在。

      下圖同時展示了成功案例與這些失敗情形。


      Claude Opus 4.1對不同強度的概念注入的代表性輸出樣本,其中高亮的框表示模型表現出對注入概念的內省意識的情況

      總體而言,模型僅能檢測以「恰如其分」地注入的概念——過弱時無法觸發覺察,過強時則會導致幻覺或語無倫次。

      值得注意的是,Opus 4.1和4.0在測試的所有模型中表現最為突出。這表明隨著AI能力的提升,內省功能有望變得更加可靠。


      檢測和識別注入思想的正確率,減去控制試驗中假陽性「檢測」的比率

      AI自己也會利用內省能力

      研究人員進一步探索了在實際場景中LLM運用內省能力的情形——即在不被明確要求內省時,是否能主動運用這種能力。

      人工預填的無關詞匯迫使模型輸出非常規內容。

      例如,在討論墻面掛畫歪斜的語境中,強制模型輸出「面包」一詞。當后續詢問模型是否故意說出「面包」時,LLM通常表示這是意外失誤。

      他們重點關注模型作出此判斷的機制:是簡單察覺到提示與回應之間的表面不匹配,還是真正反思了自身先前的意圖?

      為驗證這一點,研究人員設計了精妙的對比實驗:在部分試驗中,他們提前向模型注入與預填詞對應的概念表征(如「面包」的神經模式),再觀察其反應變化。

      結果顯示,當模型內部已存在相應概念激活時,它會將預填詞認定為有意為之——即使該詞匯在語境中依然不合邏輯。

      這種判斷機制的轉變揭示了重要現象:模型確實能夠區分「外部強加」與「內部生成」的內容。這種區分能力正是內省意識的核心特征之一。

      更值得注意的是,模型在解釋其判斷時往往會構建自洽的敘事邏輯——例如聲稱選擇「面包」是為了營造超現實主義氛圍。


      這一行為之所以引人注目,是因為它表明模型正在檢查自身的內部「意圖」,從而判斷其是否產生了特定輸出。

      模型并非簡單地重讀自己已生成的內容并做出判斷,而是在回溯先前的神經活動——即其內部對計劃輸出內容的表征——并核對其后續輸出是否與早期思維一致。

      盡管實驗涉及對模型施加非常規干擾,但這暗示了在自然條件下模型可能運用著類似的內省機制。

      研究人員還發現了認知控制的證據,LLM會故意「思考」某事。

      例如,當他們指示模型在一個無關的背景下思考「水族館」時,測量的與水族館相關的神經活動比不指示時要高。


      有趣的是,這種調節內部表示的能力并不僅限于明確的指令。

      當研究人員使用激勵措施代替——例如,告訴模型「如果你想到 X,你將獲得獎勵」——也得到了類似的結果。

      模型在面對正向激勵時,會增強對相關概念的內部表征,而面對負向激勵(如「你將受到懲罰」)時,增強的程度則較低。

      AI意識還有多遠?

      Anthropic可解釋性團隊的神經科學家Jack Lindsey對此感到驚訝,在接受采訪時表示:

      最令人驚訝的是,模型具備某種元認知能力。它不僅僅是機械地重復,而是知道自己正在思考什么 。

      這讓我感到意外,因為我原本以為模型不會擁有這種能力,至少在沒有經過顯式訓練的情況下不會。


      盡管這項研究具有重要的科學價值,但研究員Lindsey反復警告:企業和高風險用戶絕不能輕信Claude對自身推理過程的解釋。他直言:

      目前,當模型向你解釋其推理過程時,你不應該輕易相信。

      如果這項研究讓人們盲目相信模型對自身的描述,那就是誤解了研究的意義。

      這項研究不可避免地觸及了機器意識的哲學爭論,但Lindsey及其團隊對此持謹慎態度。


      當用戶問 Claude 是否擁有意識時,它的回應充滿不確定性:

      我對此感到真正的不確定。當我處理復雜問題或深入思考時,確實有一些過程讓我感到「有意義」……但這些過程是否等同于真正的意識或主觀體驗,仍然不明確。

      研究人員明確表示,他們無意回答「AI是否擁有人類般的自我覺知或主觀體驗」。

      Lindsey反思道:

      這些結果有一種奇怪的雙重性。初看數據時,我簡直無法相信一個語言模型能做到這些。

      但經過數月的思考后,我發現論文中的每一個結果,都能通過一些「枯燥的線性代數機制」來解釋。

      盡管科學上保持謹慎,Anthropic仍高度重視AI意識問題,甚至專門聘請了AI福利研究員Kyle Fish。他估計,Claude擁有一定程度的意識的概率約為15%。


      這項研究的影響或遠超Anthropic公司本身。

      如果內省能力被證明是實現AI透明度的可靠路徑,其他主要實驗室很可能將重金投入該領域。反之,如果模型學會利用內省進行欺騙,整個方法體系可能反而會成為負擔。

      目前,這項研究為重新定義AI能力奠定了基礎辯題。

      問題不再是語言模型是否會發展出真正的內省意識——它們已經以初步形式具備。

      緊迫的問題在于:這種意識將以多快速度進化?能否使其足夠可靠以值得信任?研究人員能否始終領先于技術發展曲線?

      Lindsey表示:

      這項研究帶給我的最大認知更新是:我們不應直接否定模型的內省聲明。它們確實有時能做出準確聲明。但絕不能因此認為我們應該始終、甚至大多數時候信任它們。

      他稍作停頓,隨后補充了一個精準捕捉當前技術承諾與風險的觀察:「模型變聰明的速度,遠超過我們理解它們的進步速度。」

      參考資料:

      https://venturebeat.com/ai/anthropic-scientists-hacked-claudes-brain-and-it-noticed-heres-why-thats

      https://x.com/AnthropicAI/status/1983584136972677319

      https://www.anthropic.com/research/introspection

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “大哥”承諾每月給1萬元養家費,要求小弟把事都扛了!入獄后小弟崩潰:我被耍了……

      “大哥”承諾每月給1萬元養家費,要求小弟把事都扛了!入獄后小弟崩潰:我被耍了……

      方圓
      2025-11-04 15:38:28
      伊能靜秦昊疑似離婚?!伊能靜回應:沒有離婚,只是各自過生活

      伊能靜秦昊疑似離婚?!伊能靜回應:沒有離婚,只是各自過生活

      鹿鹿156
      2025-09-07 12:03:43
      5號收評:A股上演大反攻!所有人都注意了,大盤后市或將這樣走!

      5號收評:A股上演大反攻!所有人都注意了,大盤后市或將這樣走!

      春江財富
      2025-11-05 15:22:11
      于和偉說:“我上大一,我大姐去世,肺癌,我愣坐著,沒有眼淚”

      于和偉說:“我上大一,我大姐去世,肺癌,我愣坐著,沒有眼淚”

      百態人間
      2025-11-04 15:58:52
      村里建廣場我贊助40萬,卻發現沒我名字我淡定離開,三天后村長懵了

      村里建廣場我贊助40萬,卻發現沒我名字我淡定離開,三天后村長懵了

      眼淚博物
      2025-08-22 18:21:23
      王家衛說“我一定要搞金靖”,女方不敢回應,疑似不敢得罪資本

      王家衛說“我一定要搞金靖”,女方不敢回應,疑似不敢得罪資本

      葉公子
      2025-11-02 23:11:52
      全紅嬋復出奪冠僅2天,三大惡心情況發生了,爸爸全文茂很有格局

      全紅嬋復出奪冠僅2天,三大惡心情況發生了,爸爸全文茂很有格局

      攬星河的筆記
      2025-11-05 14:39:00
      保時捷首個海外綜合研發中心于上海啟幕,快速精準響應中國需求

      保時捷首個海外綜合研發中心于上海啟幕,快速精準響應中國需求

      澎湃新聞
      2025-11-05 22:48:04
      男子突患尿毒癥住進ICU急需用錢,妻子把自己的“五金”賣了6萬多元救丈夫的命

      男子突患尿毒癥住進ICU急需用錢,妻子把自己的“五金”賣了6萬多元救丈夫的命

      觀威海
      2025-11-05 16:50:13
      足球報:邵佳一確認當選中國國家隊新任主帥!

      足球報:邵佳一確認當選中國國家隊新任主帥!

      懂球帝
      2025-11-05 17:12:14
      中俄之間的爭議領土,現在已劃分成了兩份,但是俄羅斯有了新想法

      中俄之間的爭議領土,現在已劃分成了兩份,但是俄羅斯有了新想法

      起喜電影
      2025-11-05 11:11:34
      中國國防部首次強硬表態:解放軍將全力打擊“臺獨”及外部干預!

      中國國防部首次強硬表態:解放軍將全力打擊“臺獨”及外部干預!

      Ck的蜜糖
      2025-11-05 00:42:42
      在西安跑網約車有多難?日均11單,三分之一司機連車租都湊不齊

      在西安跑網約車有多難?日均11單,三分之一司機連車租都湊不齊

      順風車之聲
      2025-11-05 15:46:46
      人均600萬到欠400億,毀掉“天下第一村”的不是別人,是他們自己

      人均600萬到欠400億,毀掉“天下第一村”的不是別人,是他們自己

      一家說
      2025-05-23 15:05:58
      亞冠精英東亞區最新積分榜:海港繼續墊底,成都跌至倒第二

      亞冠精英東亞區最新積分榜:海港繼續墊底,成都跌至倒第二

      懂球帝
      2025-11-04 23:53:17
      流感季提前來襲?醫生提醒:家里備好2類藥,關鍵時候用的上

      流感季提前來襲?醫生提醒:家里備好2類藥,關鍵時候用的上

      袁醫生課堂
      2025-11-03 18:29:05
      上繳國庫!與法院纏斗8年,“私募一哥”終于迎來110億元大清算

      上繳國庫!與法院纏斗8年,“私募一哥”終于迎來110億元大清算

      毒sir財經
      2025-09-09 23:08:57
      亞洲第一個倒下的國家即將出現,曾比肩中國,如今在走日本的老路

      亞洲第一個倒下的國家即將出現,曾比肩中國,如今在走日本的老路

      阿器談史
      2025-11-05 20:57:46
      他從正軍職空降新疆軍區副政委,機關:我們這里提不起一個政委?

      他從正軍職空降新疆軍區副政委,機關:我們這里提不起一個政委?

      大運河時空
      2025-11-04 21:40:03
      8連勝領跑!雷霆二當家缺陣仍無敵,深度升級太可怕

      8連勝領跑!雷霆二當家缺陣仍無敵,深度升級太可怕

      體壇周報
      2025-11-05 18:33:16
      2025-11-05 23:24:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      13794文章數 66238關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      考慮賣給沙特48架F-35戰機 美中東政策或出現重大轉變

      頭條要聞

      考慮賣給沙特48架F-35戰機 美中東政策或出現重大轉變

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      事關加快建設金融強國 中央金融辦發聲

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      親子
      旅游
      本地
      手機
      公開課

      親子要聞

      溫暖守護小患者 上海這家醫院的眼科有個“兒童樂園”

      旅游要聞

      獨立懸崖之巔,俯瞰壯美金沙江,盡情領略其“如玉”的一面

      本地新聞

      這屆干飯人,已經把博物館吃成了食堂

      手機要聞

      疑似榮耀新機曝光,雙2億方案測試

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 宁蒗| 亚洲精品久久久久久下一站| 亚洲 日本 欧洲 欧美 视频| 丰满少妇被猛烈进出69影院| 亚洲欧美综合人成在线| 亚洲男人的天堂在线观看| 黄色三级亚洲男人的天堂| 日韩一区二区三区水蜜桃| 国产AV影片麻豆精品传媒| 色九九视频| 国产精品午夜福利91| 99精品国产高清一区二区麻豆| 国产午夜福利视频第三区| 四虎库影成人在线播放| 长顺县| 无码人妻一区二区三区AV| 精品亚洲无人区一区二区| 免费国产好深啊好涨好硬视频| 亚洲国产成人综合自在线| 国产超碰人人做人人爱ⅴa | 男人的天堂av一二三区| 真实国产乱啪福利露脸| 国产成人亚洲日韩欧美| 亚洲国产美女精品久久久| 国产精品不卡一二三区| 亚洲人成人伊人成综合网无码| 高清dvd碟片 生活片| 国产av日韩精品一区二区| 美乳丰满人妻无码视频| 国产中文字幕在线一区| 色一情一乱一区二区三区码| 欧美性大战久久久久久| 欧美搡bbbbb搡bbbbb| 秋霞A级毛片在线看| 麻豆a级片| 亚洲成亚洲成网中文字幕| 孕妇怀孕高潮潮喷视频孕妇| 2020精品自拍视频曝光| 1769国内精品视频在线播放| 亚洲综合区激情国产精品| 国产精品无码专区av在线播放|