China’s chipmakers are cleverly innovating around America’s limits
他們不斷逼近工具性能極限,擴大規模并借助“模糊數學”
![]()
插圖:Alberto Miranda
2025年10月22日
芯片領域的博弈始于2018年。當時,唐納德·特朗普執政的美國(后來喬·拜登及特朗普再次執政時延續了這一政策)開始對希望向中國出售產品的半導體企業施加日益嚴苛的出口限制。這項高科技禁運措施的目的,是遏制中國自主打造先進芯片制造產業的雄心。
然而事與愿違,此舉反而刺激了中國芯片產業的發展。中國政府希望本國企業能在硬件領域復刻其在軟件領域的成功,突破美國的限制進行創新。今年1月,中國軟件企業深度求索(DeepSeek)發布了一款人工智能模型,盡管訓練時使用的計算資源僅為西方同類產品的一小部分,性能卻能與之抗衡,這一成果震驚世界。如今,中國芯片制造商正試圖在硬件領域實現類似突破:他們不斷將工具性能推向極限,通過搭建大型處理器集群彌補芯片運算速度的不足,并將硬件與軟件深度融合以榨取每一分性能。目前的關鍵問題在于,中國能否將芯片、系統、代碼這些組件整合為一套自給自足且具備競爭力的人工智能“技術棧”。
![]()
圖表來源:《經濟學人》
首先來看芯片本身。風險投資公司Edgerunner Ventures的瑞安·坎寧安(Ryan Cunningham)收集的數據顯示,中國人工智能芯片的中位性能為114萬億次浮點運算/秒(teraflops),遠落后于美國競爭對手(見圖)。華為的旗艦人工智能芯片昇騰910C(Ascend 910C)運算性能為800萬億次浮點運算/秒,而英偉達(Nvidia)的高端產品B200則能達到2500萬億次浮點運算/秒。
雙方存在差距的一大原因是先進芯片制造難度極高。過去半個世紀里,提升微芯片運算速度最可靠的方法是縮小晶體管尺寸——晶體管是微小的電子開關,其“開”“關”狀態分別對應二進制運算中的“1”和“0”。英偉達B200芯片包含2080億個晶體管,這些晶體管被劃分為數千個獨立核心,全部集成在一塊幾十毫米寬的硅片上。
目前全球僅有三家企業有能力制造采用最先進極小尺寸晶體管的芯片:韓國的三星半導體、中國臺灣的臺積電(TSMC),以及(在一定程度上)美國的英特爾(Intel)。臺積電在該市場占據主導地位,但在美國的壓力下,其最先進的工廠已不對中國客戶開放。中國企業只能依靠中芯國際、華為等本土芯片制造商滿足需求。
但中芯國際和華為同樣面臨限制。芯片制造工廠需要使用由另一批企業生產的先進機床。例如,光刻機利用光線在硅晶圓上蝕刻出構成微芯片的電路圖案。這就像毛筆比蠟筆能畫出更精細的線條一樣,波長更短的光線能蝕刻出更細微的電路細節。最先進的光刻機采用波長為13.5納米(1納米等于十億分之一米)的極紫外光(EUV),這類設備僅由荷蘭企業阿斯麥(ASML)生產,該公司花費數十年才完善了這項技術。
再次受美國壓力影響,阿斯麥不會向中國芯片制造商出售極紫外光刻機。因此,中國企業只能選擇將老舊的“深紫外光”(DUV)光刻機——采用193納米波長光線——的性能推向極限。其中一種策略是“多重曝光”:工程師不再對晶圓進行單次曝光,而是重復多次曝光流程,逐步構建出單次曝光無法實現的更小電路結構。
不過,多重曝光技術也會帶來弊端:它會增加成本、減慢生產速度,并降低良率(即每片晶圓上無缺陷芯片的比例)。對中國而言,自給自足的重要性或許遠超效率,但深紫外光技術的性能提升存在物理極限。多數分析師認為,除非中國能獲得阿斯麥極紫外光刻機的供應,否則大規模生產最先進芯片仍需數年時間。
既然中國在芯片質量上仍處于追趕狀態,另一種選擇便是追求數量優勢。人工智能的數學特性使其非常適合“并行計算”——即將一項任務拆分為多個小塊,由多顆芯片同時處理。今年4月,華為發布了CloudMatrix 384人工智能系統,該系統專為數據中心機架設計,將384顆昇騰910C芯片連接在一起,目標是與英偉達的GB200 NVL72系統競爭(后者搭載72顆B200芯片)。
咨詢公司SemiAnalysis估計,單顆昇騰芯片的性能約為英偉達B200的三分之一。因此,華為使用五倍于對手的芯片數量,使其系統性能略低于英偉達產品的兩倍。這種設計的代價是功耗:華為該系統耗電量達600千瓦,是英偉達設備的四倍多。但坎寧安認為這是合理的權衡,他指出“能源在中國并非問題”。
以這種方式連接大量芯片,也恰好發揮了華為的優勢——該公司在計算機網絡領域早已樹立良好口碑。CloudMatrix 384系統以光脈沖而非電信號傳輸數據,這種被稱為“光網絡”(optical networking)的方式,比傳統電網絡功耗更低、產生的廢熱更少。光網絡過去主要用于長距離光纖通信,如今正逐步應用于數據中心。投資公司伯恩斯坦(Bernstein)的芯片分析師Qingyuan Lin表示,華為的這一方案正“從根本上改變”人工智能基礎設施的構建方式。
中國這一戰略的最后一環,是讓硬件與運行于其上的軟件實現高度適配。一個典型例子是芯片處理內部數值的方式。多數通用處理器采用32位或64位(即二進制位數)來表示數值。與十進制計數類似,可用的位數越多,能表示的數值范圍就越大;更多位數也能更精確地近似那些無法被精確表示的數值(例如十進制中的2/3、二進制中的1/5,兩者都會產生無限循環的數字模式)。但每一個比特(即每一個“1”或“0”)都需要一個晶體管來存儲,額外的晶體管會消耗更多電能。
逐步突破
不過,人工智能模型對數學計算的精度有一定容忍度。因此,許多現代人工智能芯片選擇僅用16位、8位甚至4位來表示數值。美國伊利諾伊大學厄巴納-香檳分校的電氣工程師拉凱什·庫馬爾(Rakesh Kumar)稱,這是一種“簡單但極具成效”的硬件優化方法。今年8月,已迅速成為中國人工智能領域標桿企業的深度求索,發布了一種新的數值格式:它采用8位存儲數值,不區分正負,且完全不包含小數部分。
![]()
圖表來源:《經濟學人》
這種格式雖然無法表示大范圍數值,精度也較低,但運算效率理應大幅提升。深度求索發布該格式后,中國芯片設計企業寒武紀科技的股價大幅上漲——其處理器已支持這種新格式。華為的芯片目前尚未支持,但預計很快也會跟進。
由此可見,中國打造本土人工智能技術棧的努力已取得良好開端,但仍有漫長的路要走。英偉達的CUDA人工智能編程工具仍占據主導地位;中國芯片設計企業在設計芯片時,最初仍依賴新思科技(Synopsys)、楷登電子(Cadence)等美國企業開發的程序(美國曾在今年5月禁止這兩家企業向中國出口產品,后于7月放寬限制)。此外,盡管中國芯片在“推理”環節(即人工智能模型響應用戶查詢的過程)正逐步縮小與國際水平的差距,但在用于創建模型的“訓練”環節,仍明顯落后。模型訓練需要將海量數據在內存中頻繁讀寫,而先進存儲芯片正是美國試圖限制中國獲取的另一類關鍵組件。
但如果將計算與人工智能視為國家安全的關鍵領域,中國芯片產業未必需要成為全球最頂尖水平才能發揮作用——只要具備競爭力,就能產生深遠影響。■
說明:本號刊發來自各方的文章,是為了獲得更全面的信息,不代表本號支持文章中的觀點。由于微信公眾號每天只能推送一次,無法即時更新,本站目前在騰訊新聞發布最新的文章,每天24小時不間斷更新,請收藏以下地址(請完整復制),隨時刷新:
https://news.qq.com/omn/author/8QIf3nxc64AYuDfe4wc%3D
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.