【論文編號(hào):arXiv:2510.18212】
2025年10月21日,斯坦福大學(xué)、MIT、加州大學(xué)伯克利分校等全球29所頂尖研究機(jī)構(gòu)的學(xué)者,首次建立量化評(píng)估通用人工智能(AGI)的完整框架,為判斷AI是否達(dá)到人類認(rèn)知水平提供了客觀標(biāo)準(zhǔn),打破了此前AGI定義模糊的困境。
![]()
一、AGI 評(píng)估框架的構(gòu)建:以人類智能為參照
1. AGI的核心定義
AGI即通用人工智能,指AI能像受過良好教育的成年人一樣,應(yīng)對(duì)各類認(rèn)知任務(wù),而非僅擅長(zhǎng)單一領(lǐng)域(如下棋、寫文章),類似“全科醫(yī)生”,可應(yīng)對(duì)多數(shù)場(chǎng)景的認(rèn)知需求。此前,“聰明”的標(biāo)準(zhǔn)因人而異,有人認(rèn)為會(huì)下圍棋是聰明,有人覺得會(huì)寫詩(shī)才算,這種模糊性讓AGI研究難以衡量進(jìn)展,而新框架徹底改變了這一現(xiàn)狀。
2. 框架設(shè)計(jì)的理論基礎(chǔ)
研究團(tuán)隊(duì)借鑒心理學(xué)權(quán)威的CHC理論(Cattell-Horn-Carroll 理論)—— 該理論經(jīng)百年實(shí)驗(yàn)與數(shù)據(jù)分析驗(yàn)證,拆解人類智能為可測(cè)量部分,是當(dāng)前主流智力測(cè)試的核心框架。基于此,團(tuán)隊(duì)將AGI拆解為10個(gè)認(rèn)知領(lǐng)域,每個(gè)領(lǐng)域占10分,總分 100 分代表完全達(dá)到人類認(rèn)知水平,這套評(píng)分系統(tǒng)被命名為 “AGI分?jǐn)?shù)”。
二、AI“體檢報(bào)告”:驚人的“鋸齒狀”能力分布
當(dāng)用該框架測(cè)試GPT-4與GPT-5時(shí),結(jié)果超出預(yù)期:GPT-4總分僅27分,GPT-5 為58分,且分?jǐn)?shù)分布極不均衡,呈現(xiàn) “鋸齒狀”—— 部分領(lǐng)域接近滿分,部分領(lǐng)域卻得零分,如同嚴(yán)重偏科的學(xué)生。
1. 突出的“強(qiáng)項(xiàng)”
GPT-5在知識(shí)儲(chǔ)備(測(cè)常識(shí)、科學(xué)、社會(huì)、歷史知識(shí),如 “月球?yàn)楹问冀K同一面朝向地球”)、讀寫能力(讀懂復(fù)雜文本、寫邏輯嚴(yán)密文章,如解析產(chǎn)品說明書、撰寫 “遠(yuǎn)程工作利弊”文)、數(shù)學(xué)能力(覆蓋算術(shù)到微積分,如計(jì)算公司三個(gè)月工資支出)上表現(xiàn)優(yōu)異,均接近或達(dá)到10分(滿分),堪稱“學(xué)霸”級(jí)別。
2. 致命的“弱項(xiàng)”
長(zhǎng)期記憶存儲(chǔ)是最大短板,GPT-4與GPT-5均得0分:就像人聊完天后轉(zhuǎn)身就忘,次日見面需重新介紹,無法積累經(jīng)驗(yàn);記憶檢索雖在速度上得4分,但“幻覺”問題嚴(yán)重(如編造 “拿破侖南非戰(zhàn)役戰(zhàn)略”),避免幻覺得零分;GPT-4的視覺、聽覺處理能力為零,GPT-5雖有突破(視覺4分、聽覺6分),但仍遠(yuǎn)未完善;即時(shí)推理、工作記憶、多模態(tài)處理速度等領(lǐng)域,兩者得分也普遍偏低。
3. 弱項(xiàng)的“補(bǔ)償策略”:能力扭曲
當(dāng)前AI靠“能力扭曲”彌補(bǔ)缺陷,比如用超大“工作記憶”(類似隨身帶筆記本)替代長(zhǎng)期記憶,或依賴外部搜索工具解決“幻覺”問題。但這種策略低效且脆弱——筆記本丟了、搜索受限,系統(tǒng)就會(huì)崩潰,無法應(yīng)對(duì)需要持續(xù)學(xué)習(xí)的場(chǎng)景。
三、十項(xiàng)認(rèn)知領(lǐng)域測(cè)試:全方位掃描AI“大腦”
研究團(tuán)隊(duì)如同打造 “AI體檢中心”,對(duì)10個(gè)認(rèn)知領(lǐng)域逐一檢測(cè),全面暴露AI能力短板:
- 知識(shí)儲(chǔ)備:GPT-4得8分,GPT-5得9分,“知識(shí)面廣”;
- 讀寫能力:GPT-4得6分,GPT-5得10分,“理解與生成文字達(dá)人類水平”;
- 數(shù)學(xué)能力:GPT-4得4分,GPT-5得10分,“新一代AI實(shí)現(xiàn)質(zhì)的飛躍”;
- 即時(shí)推理:GPT-4得0分,GPT-5得7分,“需臨場(chǎng)分析,仍不完美”;
- 工作記憶:GPT-4得2分,GPT-5得4分,“臨時(shí)存儲(chǔ)信息能力弱”;
- 長(zhǎng)期記憶存儲(chǔ):均得0分,“無法長(zhǎng)久保存新信息”;
- 長(zhǎng)期記憶檢索:速度得4分,避免幻覺得0分,“常編造錯(cuò)誤信息”;
- 視覺處理:GPT-4得0分,GPT-5得4分,“有基礎(chǔ)能力但不完善”;
- 聽覺處理:GPT-4得0分,GPT-5得6分,“優(yōu)于視覺但仍需提升”;
- 速度:讀寫、簡(jiǎn)單計(jì)算得3分,多模態(tài)處理速度差,“GPT-5因‘思考’慢拖后腿”。
![]()
四、透過結(jié)果看本質(zhì):AI“智能”的特殊性
當(dāng)前AI的“聰明”是“碎片化”的,而非“通用”的:擅長(zhǎng)處理已有海量數(shù)據(jù)(因此知識(shí)、讀寫、數(shù)學(xué)強(qiáng)),但弱于學(xué)習(xí)新事物、靈活應(yīng)用(長(zhǎng)期記憶、推理等弱)。比如教 AI 新工作流程,人類示范幾次就能記住并舉一反三,而AI要么記不住,要么需反復(fù)輸入流程,還無法判斷應(yīng)用場(chǎng)景。
研究團(tuán)隊(duì)用 “發(fā)動(dòng)機(jī)” 類比揭示關(guān)鍵:AI像有超強(qiáng)渦輪增壓器(知識(shí)儲(chǔ)備)、高效變速箱(語(yǔ)言處理)的發(fā)動(dòng)機(jī),但冷卻系統(tǒng)(長(zhǎng)期記憶)、潤(rùn)滑系統(tǒng)(記憶檢索)幾乎失效。且智能各部分高度依賴 —— 數(shù)學(xué)再?gòu)?qiáng),推理弱也解不了復(fù)雜應(yīng)用題;理解電影需視覺、聽覺、記憶、推理協(xié)同,缺一環(huán)就會(huì)卡頓。因此,GPT-5的58分雖看似 “及格”,卻因關(guān)鍵部件缺失,遠(yuǎn)非真正的 “通用智能”。
五、研究的實(shí)際意義:為AGI發(fā)展指路
這項(xiàng)研究不僅是“AI能力測(cè)評(píng)”,更給普通人、研究者、開發(fā)者帶來重要啟示:
- 建立理性預(yù)期:AI離AGI仍有長(zhǎng)路,雖部分領(lǐng)域驚艷,但基礎(chǔ)能力缺陷大,無需恐慌也別盲目樂觀;
- 指明研究方向:?jiǎn)渭償U(kuò)大模型規(guī)模、增加數(shù)據(jù)量不夠,需突破長(zhǎng)期記憶等架構(gòu)問題(如動(dòng)態(tài)調(diào)整模型參數(shù),讓AI“成長(zhǎng)”),如同建摩天大樓需先固地基;
- 指導(dǎo) AI 應(yīng)用:設(shè)計(jì)產(chǎn)品時(shí)要規(guī)避AI短板——不能指望AI助手次日主動(dòng)推進(jìn)項(xiàng)目,需每次補(bǔ)充背景信息,優(yōu)化人機(jī)協(xié)作流程;
- 警惕 “幻覺” 風(fēng)險(xiǎn):AI輸出信息時(shí),需獨(dú)立驗(yàn)證,尤其做重要決策時(shí),不能完全依賴;
- 理解智能多樣性:智能含多維度,不能簡(jiǎn)單用 “聰明 / 笨” 評(píng)判,無論人類還是 AI,都需全面發(fā)展。
這項(xiàng)研究的最大貢獻(xiàn),是給了AI領(lǐng)域一把“客觀尺子”——讓人們跳出炒作與恐慌,清晰認(rèn)知 “AI當(dāng)前在哪”,進(jìn)而規(guī)劃 “未來去哪、怎么去”,為AGI的穩(wěn)健發(fā)展奠定了基礎(chǔ)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.