網易首頁 > 網易號 > 正文申請入駐

中科院：為啥英語練出的 “聰明 AI”，換種語言就 “變笨”？

2025-10-28 14:23:29　來源: DATAVIEW

浙江舉報

分享至

你有沒有想過，AI 也會遇到 “語言壁壘”？比如一個在英語里能解復雜數學題的 AI，碰到中文數學題，可能就像剛學數學的新手一樣手足無措。最近中國科學院自動化研究所和中國科學院大學人工智能學院的團隊，就把這個 “怪事” 研究透了 —— 他們在 2024 年 10 月發表了一篇名為《平行擴展法則：從跨語言視角揭示推理泛化能力》的論文（編號 arXiv:2510.02272，想深究的朋友能查到全文），不僅找出了 AI “跨語言笨” 的原因，還給出了簡單又管用的解決辦法。

一、先搞懂問題：AI 的 “偏科” 有多嚴重？

現在的 AI 可厲害了，尤其是用英語訓練后，解數學題、答科學問題的能力甚至能超過人類。但中科院團隊發現了個讓人困惑的現象：這些 “英語學霸 AI” 一換語言就 “水土不服”。

打個比方，這就像一個中式大廚，在中餐廚房能做出滿漢全席，可到了意大利餐廳，連怎么煮意面都摸不著頭腦 —— 明明都是 “做飯”，換個環境就不行了。AI 也是如此：同樣是 “2+3 等于幾”，用英語問能秒答，用中文問可能就卡頓，更別說復雜的幾何題、物理題了。

我們人類就不一樣了：一個中國人學會了勾股定理，哪怕題目用英語寫，推理過程也不會變。那 AI 為啥做不到？難道它學的不是 “推理能力”，只是 “英語答題套路”？

為了驗證這個猜想，團隊做了個大規模實驗：選了 13 個常用的 “英語系 AI 模型”（參數從 15 億到 320 億不等），讓它們在 11 種差異很大的語言上 “考試”—— 既有西班牙語、德語這種和英語有點像的，也有中文、日語這種文字完全不同的，還有孟加拉語、斯瓦希里語這種 “小眾語言”。

結果很驚人：哪怕是最先進的 AI，換語言后推理能力都掉一大截；更反常的是，AI 原本英語能力越強，換語言后 “翻車” 越厲害。這一下就推翻了我們之前的想法：AI 的 “聰明”，可能沒我們想的那么 “通用”。

二、挖根源：哪些因素讓 AI “跨語言笨”？

就像醫生給病人找病因，團隊設計了一系列實驗，揪出了影響 AI 跨語言能力的 3 個關鍵因素：

1. 模型的 “出身” 很關鍵：越 “專” 可能越 “僵”

團隊把 AI 分成三類：“基礎款”（像剛畢業的通用人才）、“數學專才款”（只練過數學）、“指令調優款”（專門學過 “聽懂指令、按指令做事”，看似最聰明）。

結果出人意料：“指令調優款” 反而最 “笨”—— 它在英語里能精準執行指令，可換了中文，連簡單的 “算加法” 都容易錯。這就像一個嚴格訓練過的英式管家，在倫敦能把事情辦得滴水不漏，到了中國農村，連 “挑水” 都不知道怎么下手 —— 它過度適應了英語的表達方式，換語言就 “僵住了”。

2. 模型架構：“全能型” 比 “偏科型” 更靈活

團隊對比了兩個熱門模型：Qwen2.5-7B 和 Llama3.1-8B。Qwen2.5 在英語任務里分數更高，可 Llama3.1 換語言后表現更穩。

這就像 “瑞士軍刀” 和 “專業手術刀”：手術刀切腫瘤很厲害，但換了場景（比如開快遞）就沒用；瑞士軍刀雖然單項不如手術刀，但剪、切、擰都能來，適應力更強。AI 也是如此，過度 “專精英語” 的架構，反而限制了跨語言能力。

3. 模型規模：不是越大越好

團隊試了 15 億參數（小模型）和 70 億參數（大模型）：在數學題這種 “AI 強項” 上，小模型換語言后反而進步空間更大；在科學推理這種 “難題” 上，大模型更穩。

這就像運動員：基礎弱的運動員，改改訓練方法就能明顯進步；而頂尖運動員，雖然進步慢，但更能把技能用到新項目上。AI 的規模，也得結合任務看，不是越大越能 “跨語言”。

說到底，這些因素都指向一個核心問題：AI 練英語練得越久，越容易 “依賴英語套路”—— 比如記住英語里 “if...then...” 的推理結構，可碰到中文 “如果... 就...”，就反應不過來。它學的不是 “推理本身”，而是 “英語里的推理”。

三、解決方案：“平行訓練” 讓 AI 變 “全能”

既然 AI 會 “依賴單語言”，那不如從一開始就 “多語言一起練”？團隊提出的 “平行訓練”，就是這么個思路。

傳統訓練像 “先把中文學到頂，再學英語”—— 中文思維根深蒂固，學英語時總忍不住 “中文翻譯”；而平行訓練像 “同時學中文和英語”，學 “2+3” 時，既知道中文說 “等于 5”，也知道英語說 “equals 5”，從一開始就把 “概念” 和 “多語言表達” 綁在一起。

團隊做了個實驗：從英語數學題里挑了 1000 道題，翻譯成 7 種語言（西班牙語、俄語、中文等），然后讓 AI “同時練這 8 種語言的題”—— 從只練英語，到加 1 種語言、加 2 種…… 一直加到 7 種。

結果讓所有人驚喜：

1. 第一次加語言，AI 就 “跳級” 了

當 AI 從 “只練英語” 變成 “英語 + 1 種其他語言” 時，跨語言能力直接翻了一倍多 ——“多語言轉移指數” 從 1.16 漲到 2.50，提升超 115%。這就像一個人只會用筷子，突然學會用叉子，之后發現 “不管是勺子還是刀，都能快速上手”。

2. 再加語言，進步會變慢

可當語言從 1 種加到 7 種時，指數只從 2.50 漲到 3.63，提升約 45%。這符合 “邊際效用遞減”—— 第一口蛋糕最滿足，吃到第十口，滿足感就弱多了。AI 也是，加第一種語言的 “收益” 最大，之后再加，進步就沒那么明顯了。

3. 總結出 “平行擴展法則”

團隊從數據里找出了一個規律：AI 的跨語言能力，會隨著 “平行訓練的語言數量” 增加而增長，但增長速度會越來越慢，能用一個簡單的數學公式表示（不用記公式，記住 “多語言一起練，能力會漲但增速放緩” 就行）。

更重要的是：這種訓練不是讓 AI “英語更好”，而是讓它學會 “把能力從一種語言轉到另一種”—— 就像學會騎自行車后，再學騎摩托車、滑板車都容易，因為掌握了 “平衡” 這個核心技能。AI 也能通過少量平行數據，學會 “跨語言遷移” 的本事。

四、最意外的發現：“單語言 AI” 的致命缺陷

研究中最震撼的，是團隊發現了 “單語言泛化差距”—— 只用英語訓練的 AI，表現遠遠低于 “平行擴展法則” 的預期。

按法則算，純英語 AI 的 “跨語言轉移指數” 該有 2.00，可實際只有 1.16，差了 42%；準確度預期 56.98%，實際只有 54.24%—— 別小看這 2% 多的差距，對 AI 來說，每提升 1% 都很難。

這個差距說明什么？現在的 “英語 AI”，根本沒學會 “通用推理”，只是把 “英語答題套路” 練熟了。就像一個人只在北京生活，能熟練應對北京的交通、購物，可到了上海，連地鐵線路都看不懂 —— 他會的是 “北京的生活技巧”，不是 “通用的生活能力”。

團隊還驗證了：只有 “語義對等” 的平行數據（比如同一道題的中英版本），才能讓 AI 學會跨語言推理；如果用 “非平行數據”（比如英語數學題 + 中文新聞），AI 還是學不會 —— 因為它沒法把 “英語數學” 和 “中文新聞” 里的邏輯聯系起來。

五、實際用起來：選哪種語言練？低資源語言最受益

很多人會問：平行訓練時，選哪種語言和英語搭配最好？團隊做了實驗：選俄語、中文、德語、孟加拉語分別和英語配對，結果差別不大 —— 俄語效果稍好（指數 2.84），中文稍低（2.50），但統計上沒明顯差距。

反而有個更重要的發現：低資源語言（比如孟加拉語、斯瓦希里語）從平行訓練里獲益最大。

這些 “小眾語言” 在傳統訓練里特別慘，有時甚至越練越差（比如練了英語后，孟加拉語答題更錯了）；可一用平行訓練，表現直接飆升，進步比英語、中文這些 “高資源語言” 還大。

這就像 “偏科生”：一個學生數學很好、語文很差，只補數學的話，語文會更差；可如果數學和語文一起補，反而能找到 “學習的通用方法”，語文進步比數學還快。AI 對低資源語言的 “偏見”，靠平行訓練就能糾正。

另外，練哪種語言，AI 在哪種語言上的表現就會額外好 —— 比如練 “英語 + 孟加拉語”，AI 的孟加拉語能力會比練 “英語 + 中文” 時強。這很容易理解：就像同時學中英語，中文和英語都會比只學一種好。

六、重新認識 AI：它的 “聰明” 還沒到人類水平

這項研究最核心的價值，是讓我們重新看清 AI 的 “推理能力”：

以前我們以為，AI 在英語里會推理，換語言也該會 —— 畢竟數學定理、邏輯規律不分語言。但實際是，AI 學的是 “和語言綁定的推理模式”，不是 “推理本身”。就像一個人會打中式太極拳，到了拳擊臺，原有的招式不僅沒用，還可能被打倒。

而平行擴展法則、首次平行躍遷這些發現，告訴我們：AI 不是學不會 “通用推理”，只是需要 “多語言一起練”。從單語言到多語言，不是 “量的增加”，而是 “質的飛躍”——AI 會從 “記英語套路” 變成 “找通用邏輯”。

但我們也得清醒：AI 現在還遠不如人類。人類學一個概念，自然能跨語言用；AI 卻需要專門的平行訓練，才能做到 “勉強跨語言”。這說明我們對 “智能” 的理解還不夠，未來要走的路還很長。

七、未來可期：AI 能真正服務全球人了

這項研究不只是 “發現問題”，更給了 AI “全球化” 的方向 —— 以后做 AI，不用再 “先把英語做到頂，再補其他語言”，而是從一開始就 “多語言并行”。

比如做一個全球客服機器人：以前只練英語，中文用戶問問題，機器人答得顛三倒四；現在用 “英語 + 中文” 平行訓練，哪怕數據不多，中文服務質量也能明顯提升。

對低資源語言用戶來說，這更是個好消息 —— 以后哪怕說的是斯瓦希里語、泰盧固語，也能用上高質量的 AI 服務，不用再 “被迫學英語用 AI”。

當然，這只是開始。未來的 AI，可能會從 “底層架構” 就支持多語言，而不是 “事后補語言”；評估 AI 時，也會把 “跨語言能力” 當成重要標準，而不只是看英語分數。

說到底，AI 的終極目標是服務全人類，而不是只服務英語使用者。中科院的這項研究，就像給 AI 搭了一座 “跨語言的橋”—— 讓它能從 “英語孤島” 走出來，真正融入全球的語言多樣性中。

也許未來某一天，我們用任何語言和 AI 交流，它都能像人類一樣順暢推理 —— 而這一切，就從今天這個 “平行訓練” 的發現開始。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.