如果華為9月18號官宣的都能實現,英偉達清庫存、中國定制、反壟斷調查都不再重要,可以踏實放棄中國市場了。
TT可以坦然“讓給你”,因為半導體我們“勝利在望”。
9月18日的華為全連接大會上,昇騰公布未來三年產品路線圖,明確2026至2028年將推出包括950PR、950DT、960、970在內的多款高性能芯片。
架構、算力、內存、集群互聯跨越式發展,在經歷盤古昇騰事件后,華為少見地高調公布AI戰略進展。
結合T1級的寒武紀、昆侖芯、平頭哥、摩爾線程今年爆單,沐曦、壁仞、天數等公司有望上市,國產AI算力一超多強”局面逐漸明朗。
芯片全面進化:算力狂飆,自研HBM,架構大換血!
1)新架構讓CUDA不再是護城河
昇騰950將實現1PFlops FP8算力或2 PFlops FP4算力,若按英偉達稀疏算力標稱法,昇騰950算力還將再次翻倍,高達4 PFlops。相較于此前昇騰910C單Die最高0.8PB Int8的算力,其算力密度只能說是穩步提升。
此外,將于2027年Q1上市的昇騰960將實現2PFlops FP8算力,行業推測昇騰960可能采用雙Die合封設計,類似當下的昇騰910C或英偉達B200/300。而昇騰970將再次翻倍,達到4 PFlops。
![]()
更重要的是架構升級,昇騰NPU從SIMD升級至SIMT/SIMD架構。與此前芯事情報局報道的《盤古昇騰事件后續來了,華為轉向GPU硬剛英偉達?》基本一致。
![]()
SIMT/SIMD架構的好處在于:
一是算子開發變得更加高效,相較于以往為昇騰910系列自行開發算子的方式,大幅優化,甚至可以以很簡單的方式匹配CUDA算子。
二是支持的加速格式也更為豐富,從原先最低支持Int8,擴展至FP8、FP4等多種精度,其中FP4有望成為未來推理任務的主流配置。以OpenAI開源大模型GPT OSS來看,該模型使用4bit量化和FP4推理。
此外,新一代芯片在訪存效率和互聯帶寬方面也實現進一步提升。
互聯帶寬從昇騰910C的784 GB/s提升至2TB/s,是原來的接近3倍;實現更精細的內存訪問粒度(支持512B、128B);提高向量處理單元的計算資源分配。
2)國產HBM橫空出世,內存墻徹底推倒
該方案大概率采用定制Base Die與DRAM TSV封裝相結合的方式,也不排除華為完全自研Base Die及封裝技術的可能性。HBM本質上是由多層DRAM堆疊于Logic芯片之上構成,如僅追求高速內存性能,也可放寬條件,不嚴格依賴HBM。類似替代方案還包括可用于移動端的CUBE封裝等更靈活的結構。
HBM方面,昇騰950PR采用128GB 1.6TB/s的HBM,950DT則采用144GB 4TB/s的HBM二代。在昇騰960和970上,內存速度還將提升到9.6TB/s和14.4 TB/s。
![]()
3)一芯兩用!昇騰950為大模型量身定制
PR版本采用950 Die搭配HiBL1.0(內部代號“白鷺”),而DT版本則為950 Die與HiZQ(內部代號“朱雀”)的組合。
![]()
兩者在內存帶寬方面存在差異,DT具備更大帶寬,PR則相對較小。
這一區別推測與大模型推理的不同階段需求相關:Prefill階段側重于算力,影響“出首字”速度,而Decode階段更依賴內存帶寬,影響“蹦字”效率。芯片架構的這一變化,是否預示著“PD分離”的設計趨勢,值得進一步觀察。
4)鯤鵬CPU同步進化,192核“靈犀”打通算力瓶頸
2026年Q4量產鯤鵬950,核心架構從“泰山”升級為“靈犀”,核數大幅提至192核/384線程;2028年Q1推出鯤鵬960,更分高性能版(單核性能+50%+)和高密度版(256核/512線程),全面覆蓋AI Host、數據庫、云原生等場景。
![]()
集群全球最強!SuperPoD性能碾壓英偉達現役及在研系統!
1)重新定義“Super”,8192卡單節點只是起步,算力單位直接用“E”
搭載昇騰950芯片的新一代大規模集群SuperPoD正式對外公布,預計將顯著提升高性能計算能力。
![]()
![]()
SuperPoD將于2026年第一季度開始交付,該可以以8192張卡為節點,形成超大規模算力池。這一算力水平遠超當前英偉達主流方案,甚至超越其規劃中的NVL72/NVL576系統,被業內稱為“全球最強AI單節點”。
Atlas 950 SuperPoD(基于Ascend 950):
?集成 8,192顆NPU
?FP8算力高達 8 EFLOPS(每秒800億億次)
?內存容量 1,152 TB
?內存帶寬 16.3 PB/s
?訓練吞吐量 4.91 million TPS
?推理吞吐量 19.6 million TPS
Atlas 960 SuperPoD(基于Ascend 950DT / 960):
?規模擴展至 15,488卡(NPU)
?FP8算力達 30 EFLOPS,FP4下更可達 60 EFLOPS
?互聯帶寬高達 34 PB/s,采用跨柜全光互聯架構
![]()
據估算,在FP16精度下,一個8192卡集群可提供4EFlops算力,而15488卡集群更可達到7.5EFlops,展現出卓越的線性擴展能力。
該集群采用全光互聯技術,運行華為自研的GaussDB數據庫,并搭載泰山950服務器作為交換核心,體現出高度集成化的“華為全家桶”式解決方案。
值得關注的是,此前已在CM384集群中得到驗證的UB Mesh互聯技術,也將直接應用于SuperPoD中,為其高吞吐、低延遲通信提供底層支持。
2)百萬卡互聯已成現實,AI算力進入“核聚變”時代
50萬卡集群預計可提供267 EFLOPS(FP16)算力,相當于64個8192卡集群的集合;而百萬卡集群更將實現524 EFLOPS(FP16)算力,由128個基本SuperPoD單元構成。
意味著SuperPoD架構中一個8192卡集群模塊,并支持以2的倍數靈活向上疊加,為超大規模AI訓練與推理任務奠定堅實基礎。
![]()
![]()
全面開源!華為開放UB-Mesh、AI工具鏈,共建生態絕殺英偉達!
華為正式開源其UB-Mesh互聯技術,靈衢協議將面向企業、合作伙伴及高校開放,共同推動下一代超節點計算基礎設施的建設與發展。
![]()
當前,單卡與單機柜的性能逐漸面臨物理上限,卡間與機柜間互聯技術已成為提升算力規模的關鍵。為突破單卡算力限制,華為推出了昇騰910C,英偉達也發布了B200/B300,均采用合封方式提升單卡性能。在機柜層面,英偉達NVL72通過高密度集成顯卡進一步提升單節點性能。而在千卡、萬卡乃至十萬卡的大規模集群中,互聯方案多依賴InfiniBand或以太網架構,各廠商需依托自身技術實現高效組網。
此前有分析比喻稱,英偉達的互聯技術能夠將數千張顯卡虛擬化為一個“超級計算卡”,實現整體算力的無縫整合。UB-Mesh則代表了華為基于光互聯技術提出的全新路徑,旨在替代InfiniBand方案。
光互聯相較于傳統銅互聯,在抗干擾性和傳輸帶寬方面具備明顯優勢。更重要的是,我國光通信產業鏈自主程度遠高于銅纜相關產業。國內銅礦品位普遍較低,采購價格易受大宗商品市場影響,而光纖材料則無此類擔憂。盡管在光電芯片領域仍部分依賴海外企業——值得一提的是,華為在武漢已建設光芯片制造工廠——但在光模塊、光纖等環節,國內產業已非常成熟,光纖光模塊產能全球占比超過50%。
此前5G技術雖屢受爭議,但我國在5G建設過程中培育出了全球綜合實力最強的光通信能力。隨著UB-Mesh正式開源,各類傳統通信企業均可依托自身能力推進實施,參與到新一代計算基礎設施的建設中,共享技術發展帶來的市場機遇。
此外,華為還開源了全套AI開發工具。CANN編譯器與虛擬指令集接口開放,其余軟件全開源,2025年底前完成910B/C版本開源,未來實現“產品上市即開源”。Mind系列工具鏈全面開源,涵蓋訓練、推理、部署全流程。openPangu基礎大模型全面開源,支持企業二次開發與定制。
華為此次路線圖不止是芯片迭代,更是一套從芯到集群、從硬件到開源生態的全面進攻策略。在算力競爭步入深水區的當下,華為正以全自研技術棧+深度開源,構建挑戰英偉達的底層資本。2026,好戲才剛剛開始。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.