網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

29所頂尖研究機(jī)構(gòu)首次建立量化評(píng)估通用人工智能的完整框架

2025-10-22 20:24:44　來源: DATAVIEW

浙江舉報(bào)

分享至

【論文編號(hào)：arXiv:2510.18212】

2025年10月21日，斯坦福大學(xué)、MIT、加州大學(xué)伯克利分校等全球29所頂尖研究機(jī)構(gòu)的學(xué)者，首次建立量化評(píng)估通用人工智能（AGI）的完整框架，為判斷AI是否達(dá)到人類認(rèn)知水平提供了客觀標(biāo)準(zhǔn)，打破了此前AGI定義模糊的困境。

一、AGI 評(píng)估框架的構(gòu)建：以人類智能為參照

1. AGI的核心定義

AGI即通用人工智能，指AI能像受過良好教育的成年人一樣，應(yīng)對(duì)各類認(rèn)知任務(wù)，而非僅擅長(zhǎng)單一領(lǐng)域（如下棋、寫文章），類似“全科醫(yī)生”，可應(yīng)對(duì)多數(shù)場(chǎng)景的認(rèn)知需求。此前，“聰明”的標(biāo)準(zhǔn)因人而異，有人認(rèn)為會(huì)下圍棋是聰明，有人覺得會(huì)寫詩(shī)才算，這種模糊性讓AGI研究難以衡量進(jìn)展，而新框架徹底改變了這一現(xiàn)狀。

2. 框架設(shè)計(jì)的理論基礎(chǔ)

研究團(tuán)隊(duì)借鑒心理學(xué)權(quán)威的CHC理論（Cattell-Horn-Carroll 理論）—— 該理論經(jīng)百年實(shí)驗(yàn)與數(shù)據(jù)分析驗(yàn)證，拆解人類智能為可測(cè)量部分，是當(dāng)前主流智力測(cè)試的核心框架。基于此，團(tuán)隊(duì)將AGI拆解為10個(gè)認(rèn)知領(lǐng)域，每個(gè)領(lǐng)域占10分，總分 100 分代表完全達(dá)到人類認(rèn)知水平，這套評(píng)分系統(tǒng)被命名為 “AGI分?jǐn)?shù)”。

二、AI“體檢報(bào)告”：驚人的“鋸齒狀”能力分布

當(dāng)用該框架測(cè)試GPT-4與GPT-5時(shí)，結(jié)果超出預(yù)期：GPT-4總分僅27分，GPT-5 為58分，且分?jǐn)?shù)分布極不均衡，呈現(xiàn) “鋸齒狀”—— 部分領(lǐng)域接近滿分，部分領(lǐng)域卻得零分，如同嚴(yán)重偏科的學(xué)生。

1. 突出的“強(qiáng)項(xiàng)”

GPT-5在知識(shí)儲(chǔ)備（測(cè)常識(shí)、科學(xué)、社會(huì)、歷史知識(shí)，如 “月球?yàn)楹问冀K同一面朝向地球”）、讀寫能力（讀懂復(fù)雜文本、寫邏輯嚴(yán)密文章，如解析產(chǎn)品說明書、撰寫 “遠(yuǎn)程工作利弊”文）、數(shù)學(xué)能力（覆蓋算術(shù)到微積分，如計(jì)算公司三個(gè)月工資支出）上表現(xiàn)優(yōu)異，均接近或達(dá)到10分（滿分），堪稱“學(xué)霸”級(jí)別。

2. 致命的“弱項(xiàng)”

長(zhǎng)期記憶存儲(chǔ)是最大短板，GPT-4與GPT-5均得0分：就像人聊完天后轉(zhuǎn)身就忘，次日見面需重新介紹，無法積累經(jīng)驗(yàn)；記憶檢索雖在速度上得4分，但“幻覺”問題嚴(yán)重（如編造 “拿破侖南非戰(zhàn)役戰(zhàn)略”），避免幻覺得零分；GPT-4的視覺、聽覺處理能力為零，GPT-5雖有突破（視覺4分、聽覺6分），但仍遠(yuǎn)未完善；即時(shí)推理、工作記憶、多模態(tài)處理速度等領(lǐng)域，兩者得分也普遍偏低。

3. 弱項(xiàng)的“補(bǔ)償策略”：能力扭曲

當(dāng)前AI靠“能力扭曲”彌補(bǔ)缺陷，比如用超大“工作記憶”（類似隨身帶筆記本）替代長(zhǎng)期記憶，或依賴外部搜索工具解決“幻覺”問題。但這種策略低效且脆弱——筆記本丟了、搜索受限，系統(tǒng)就會(huì)崩潰，無法應(yīng)對(duì)需要持續(xù)學(xué)習(xí)的場(chǎng)景。

三、十項(xiàng)認(rèn)知領(lǐng)域測(cè)試：全方位掃描AI“大腦”

研究團(tuán)隊(duì)如同打造 “AI體檢中心”，對(duì)10個(gè)認(rèn)知領(lǐng)域逐一檢測(cè)，全面暴露AI能力短板：

知識(shí)儲(chǔ)備：GPT-4得8分，GPT-5得9分，“知識(shí)面廣”；
讀寫能力：GPT-4得6分，GPT-5得10分，“理解與生成文字達(dá)人類水平”；
數(shù)學(xué)能力：GPT-4得4分，GPT-5得10分，“新一代AI實(shí)現(xiàn)質(zhì)的飛躍”；
即時(shí)推理：GPT-4得0分，GPT-5得7分，“需臨場(chǎng)分析，仍不完美”；
工作記憶：GPT-4得2分，GPT-5得4分，“臨時(shí)存儲(chǔ)信息能力弱”；
長(zhǎng)期記憶存儲(chǔ)：均得0分，“無法長(zhǎng)久保存新信息”；
長(zhǎng)期記憶檢索：速度得4分，避免幻覺得0分，“常編造錯(cuò)誤信息”；
視覺處理：GPT-4得0分，GPT-5得4分，“有基礎(chǔ)能力但不完善”；
聽覺處理：GPT-4得0分，GPT-5得6分，“優(yōu)于視覺但仍需提升”；
速度：讀寫、簡(jiǎn)單計(jì)算得3分，多模態(tài)處理速度差，“GPT-5因‘思考’慢拖后腿”。

四、透過結(jié)果看本質(zhì)：AI“智能”的特殊性

當(dāng)前AI的“聰明”是“碎片化”的，而非“通用”的：擅長(zhǎng)處理已有海量數(shù)據(jù)（因此知識(shí)、讀寫、數(shù)學(xué)強(qiáng)），但弱于學(xué)習(xí)新事物、靈活應(yīng)用（長(zhǎng)期記憶、推理等弱）。比如教 AI 新工作流程，人類示范幾次就能記住并舉一反三，而AI要么記不住，要么需反復(fù)輸入流程，還無法判斷應(yīng)用場(chǎng)景。

研究團(tuán)隊(duì)用 “發(fā)動(dòng)機(jī)” 類比揭示關(guān)鍵：AI像有超強(qiáng)渦輪增壓器（知識(shí)儲(chǔ)備）、高效變速箱（語(yǔ)言處理）的發(fā)動(dòng)機(jī)，但冷卻系統(tǒng)（長(zhǎng)期記憶）、潤(rùn)滑系統(tǒng)（記憶檢索）幾乎失效。且智能各部分高度依賴 —— 數(shù)學(xué)再?gòu)?qiáng)，推理弱也解不了復(fù)雜應(yīng)用題；理解電影需視覺、聽覺、記憶、推理協(xié)同，缺一環(huán)就會(huì)卡頓。因此，GPT-5的58分雖看似 “及格”，卻因關(guān)鍵部件缺失，遠(yuǎn)非真正的 “通用智能”。

五、研究的實(shí)際意義：為AGI發(fā)展指路

這項(xiàng)研究不僅是“AI能力測(cè)評(píng)”，更給普通人、研究者、開發(fā)者帶來重要啟示：

建立理性預(yù)期：AI離AGI仍有長(zhǎng)路，雖部分領(lǐng)域驚艷，但基礎(chǔ)能力缺陷大，無需恐慌也別盲目樂觀；
指明研究方向：?jiǎn)渭償U(kuò)大模型規(guī)模、增加數(shù)據(jù)量不夠，需突破長(zhǎng)期記憶等架構(gòu)問題（如動(dòng)態(tài)調(diào)整模型參數(shù)，讓AI“成長(zhǎng)”），如同建摩天大樓需先固地基；
指導(dǎo) AI 應(yīng)用：設(shè)計(jì)產(chǎn)品時(shí)要規(guī)避AI短板——不能指望AI助手次日主動(dòng)推進(jìn)項(xiàng)目，需每次補(bǔ)充背景信息，優(yōu)化人機(jī)協(xié)作流程；
警惕 “幻覺” 風(fēng)險(xiǎn)：AI輸出信息時(shí)，需獨(dú)立驗(yàn)證，尤其做重要決策時(shí)，不能完全依賴；
理解智能多樣性：智能含多維度，不能簡(jiǎn)單用 “聰明 / 笨” 評(píng)判，無論人類還是 AI，都需全面發(fā)展。

這項(xiàng)研究的最大貢獻(xiàn)，是給了AI領(lǐng)域一把“客觀尺子”——讓人們跳出炒作與恐慌，清晰認(rèn)知 “AI當(dāng)前在哪”，進(jìn)而規(guī)劃 “未來去哪、怎么去”，為AGI的穩(wěn)健發(fā)展奠定了基礎(chǔ)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.