![]()
《悟空傳》里有一句話:“若天壓我,劈開那天;若地拘我,踏碎那地。”道盡了孫悟空打破束縛的決心。今天的中國AI乃至各行各業(yè),都無法忽視AI算力受到制約的無形枷鎖。
近年來,我國加快夯實算力基礎設施建設,全國算力一體化網(wǎng)絡作為“東數(shù)西算”的核心組成部分,正加速鋪開,國產(chǎn)AI硬件在智算中心的占比,也在持續(xù)提升。
就在中國AI算力基礎逐漸穩(wěn)固的時候,大家越來越強烈意識到:如果說智算是國之重器,那么網(wǎng)絡就是撬動這一重器的杠桿。
試想一下,萬卡集群的智算中心,滿負荷運轉如何無阻塞互聯(lián)?
萬里跨域的“東數(shù)西算”樞紐,如何減少傳輸時的時延和抖動?
多元異構的國產(chǎn)AI算力集群,互聯(lián)瓶頸該怎么破?
這些問題,我們在第九屆未來網(wǎng)絡發(fā)展大會上找到了答案。
網(wǎng)絡在AI基建投資中的占比僅約10%,但通過性能優(yōu)化與調優(yōu),網(wǎng)絡卻能撬動30%的智算業(yè)務提升,減少千卡集群30萬/天的停機損失,降低運維成本——新華三集團高級副總裁、網(wǎng)絡產(chǎn)品線總裁喬剡在大會上的觀點,精準戳中產(chǎn)業(yè)痛點。
![]()
(新華三集團高級副總裁、網(wǎng)絡產(chǎn)品線總裁 喬剡)
網(wǎng)絡不只是一根算力杠桿,更撐起了中國智算“我命由我不由天”的硬脊梁。可以說,新華三找到了智算產(chǎn)業(yè)的命門,此次大會上,也憑借“算力×聯(lián)接”雙領域的頭部優(yōu)勢,亮出了“以網(wǎng)強算”的系統(tǒng)性解決方案。
我們不妨就以此為契機,來探討一下,網(wǎng)絡這根算力杠桿如何變成了中國AI的定海神針。
![]()
長期以來,智算中心預算多向GPU等算力硬件傾斜,網(wǎng)絡被視為輔助設施,投資占比僅約10%,但喬剡在采訪中揭示的行業(yè)真相,或許會顛覆大家的認知:網(wǎng)絡性能優(yōu)化,對算力業(yè)務能力的提升幅度超過20%~30%。
“如果網(wǎng)絡調優(yōu)調得好,相當于沒有成本,這就是網(wǎng)絡在AI基礎設施中的作用”,喬剡說道。
那么問題來了,要實現(xiàn)以小博大的杠桿效應,智算網(wǎng)絡需要跨越哪些難關呢?
從單集群建設的角度看,DeepSeek等輕量化大模型的普及,以及N卡受限后,超節(jié)點(Scale Up)思路的興起,推動智算集群從百卡/千卡級,向萬卡甚至十萬卡突破。單集群的規(guī)模躍升,考驗著網(wǎng)絡承載能力。
![]()
喬剡在采訪中明確指出,當前中小算力服務商、企業(yè)私域AI場景青睞“超節(jié)點”方案,需在緊湊空間內實現(xiàn)數(shù)百GB級卡間帶寬;另一方面,互聯(lián)網(wǎng)大廠、大型智算中心仍依賴Scale Out橫向擴展,需應對200-400Gbps參數(shù)面帶寬、100Gbps數(shù)據(jù)面帶寬的傳輸需求。這兩種模式都對網(wǎng)絡提出“大容量、低時延、高可靠”的硬性要求。如果網(wǎng)絡端口容量不足、時延過高,或無法支持無阻塞通信,大量算力資源折損在網(wǎng)絡傳輸過程中,那么萬卡集群將淪為低效堆卡,成為算力釋放的瓶頸。
從算力應用場景的角度看,算力結構正從中心訓練到邊緣推理,集群規(guī)模擴大和場景延伸,帶來了更復雜的流量動態(tài),以及多品牌異構產(chǎn)品組成的多元算力集群接入需求,端網(wǎng)割裂造成的問題愈發(fā)凸顯。
傳統(tǒng)智算場景中,以網(wǎng)卡為分界線,“端”(GPU卡)與“網(wǎng)”屬于兩套獨立運維體系:算卡歸服務器團隊管理,網(wǎng)絡設備歸網(wǎng)絡團隊負責,二者缺乏協(xié)同機制。新華三集團交換機產(chǎn)品線產(chǎn)品管理部部長陳伯超舉了一個例子:“GPU發(fā)送AI數(shù)據(jù)時,不知道哪條網(wǎng)絡路徑最優(yōu);若鏈路突發(fā)故障,網(wǎng)卡仍按原路徑走,會導致數(shù)據(jù)丟失或重傳,嚴重拖慢訓練進度。”流量無法被端側感知、網(wǎng)側適配,可能造成網(wǎng)絡擁塞與算力浪費。
從智算生態(tài)的角度看,中國解決AI算力“卡脖子”問題,必須打造異構算力底座,而網(wǎng)絡封閉會阻礙多元算力協(xié)同。
![]()
在中美技術博弈的大背景下,國產(chǎn)GPU、網(wǎng)卡迎來快速發(fā)展機遇。各廠商芯片技術標準不一,適配的通信協(xié)議與優(yōu)化方案也千差萬別。喬剡在采訪中指出,若網(wǎng)絡僅適配單一品牌算力芯片,易陷入封閉生態(tài)的桎梏,難以滿足多廠商混合部署的應用需求;而兼容性的缺失,則會嚴重影響不同算力設備間的數(shù)據(jù)通信效率。新華三秉持多元異構的戰(zhàn)略,積極與眾多品牌廠商展開合作。然而,適配不同GPU廠商產(chǎn)品、兼容多樣化算力模型與應用模式,也對底層技術提出了更高的挑戰(zhàn)。
不難看到,中國在智算方面的關鍵問題已經(jīng)變了。以前是發(fā)愁有沒有算力用,現(xiàn)在更頭疼的是怎么讓AI算力不浪費、效率更高。解決這個難題,只懂計算還不夠,必須同時精通網(wǎng)絡。舉個例子,AI芯片極為敏感,對網(wǎng)絡時延、擁塞控制要求極高,只有懂得算和通信怎么配合,才能實現(xiàn)端網(wǎng)協(xié)同的實時路徑優(yōu)化,讓數(shù)據(jù)跑得又快又穩(wěn)。
新華三“算力×聯(lián)接”的雙賽道布局,使其更有可能以網(wǎng)絡為杠桿,撬動巨大的算力潛能。于是,新華三迎難而上。
![]()
一個強大的網(wǎng)絡杠桿,能夠撬動智算業(yè)務的更大潛能,而這需要產(chǎn)品與解決方案的硬實力,像金箍棒一樣經(jīng)得起實戰(zhàn)檢驗。新華三的差異化就在于此。
一方面,新華三在聯(lián)接與計算上都處于行業(yè)TOP級領航者,構建了覆蓋芯片、設備、方案、服務等在內的智算網(wǎng)絡體系。而且,所有方案均基于實際落地經(jīng)驗,正如喬剡所說:“新華三不是賣PPT的公司,我們是實打實地交付產(chǎn)品方案和服務。”
那么,未來網(wǎng)絡發(fā)展大會的比武場上,新華三帶來了哪些讓人眼前一亮的網(wǎng)絡產(chǎn)品與方案呢?
最基礎的是產(chǎn)品的硬核能力。
![]()
搭建好算力基礎設施,網(wǎng)絡設備必須得過硬。新華三在大會上推出的AI交換機H3C S9828-128EP,有128個800G端口,交換容量達到102.4T,單機容量在行業(yè)里是最領先的。并且,只用兩層架構,就能支持超10K個800G端口,這樣一來,設備用量能減少70%,光模塊用量能減少50%,不僅能降低智算中心的耗電量,還能讓設備更穩(wěn)定,維護起來也更簡單,實實在在給智算客戶省錢省力。
除了這款適用于大規(guī)模集群的交換機產(chǎn)品,新華三還帶來了適用于不同場景的產(chǎn)品系列。其中,H3C S12500AI系列交換機采用DDC架構設計,滿足算力解耦的使用需求;使用國產(chǎn)芯片的H3C S9825-8C-G智算交換機,能很好地適配國內的算力生態(tài)環(huán)境,一亮相就引起了會場觀眾的關注。
除此之外,新華三的解決方案,讓網(wǎng)絡適配智算全場景,像大小隨心的金箍棒一樣靈活破局。
比如智算集群的場景下,端網(wǎng)協(xié)同成為釋放算力潛能、提升集群效率的關鍵技術路徑。喬剡介紹,新華三自主研發(fā)的端網(wǎng)協(xié)同方案,通過有序分配熵值與增強的CBRC算法,實現(xiàn)更智能的網(wǎng)絡調度;AD-DC智算版則為集群提供全生命周期保障,將萬卡集群上線周期從數(shù)周壓縮至數(shù)天,并支持自動化性能驗證與故障實時監(jiān)控。目前,該方案已在50余款新華三交換機及多家GPU、網(wǎng)卡廠商的聯(lián)合驗證中落地。
![]()
端網(wǎng)協(xié)同方案解決了端網(wǎng)割裂問題,那么DDC(多元動態(tài)聯(lián)接)架構則實現(xiàn)算力與網(wǎng)絡解耦,為行業(yè)提供新一代算力調度能力。
具體來說,傳統(tǒng)方案ECMP存在負載不均問題,InfiniBand成本高且生態(tài)封閉。新華三自研的DDC架構,以信元轉發(fā)技術將數(shù)據(jù)切為512字節(jié)切片均勻分發(fā),徹底消除HASH極化,達成100%負載均衡,實現(xiàn)網(wǎng)絡帶寬充分利用,支持多元算力平滑接入,兼具性能、成本與開放性優(yōu)勢,為多元異構的智算底座筑基。
在“東數(shù)西算”這種廣域算力調度場景下,新華三攜手未來網(wǎng)絡集團歷時四年,基于IPv6+與廣域RDMA打造確定性網(wǎng)絡存算拉遠方案。在500公里尺度的跨域鏈路上,配套RDMA加速網(wǎng)關可將傳輸效率提升至原來的6倍。這使算力樞紐可以直接服務于其他省市政企客戶的推訓業(yè)務,實現(xiàn)普惠型算力供給;對于更長距離的業(yè)務,則可通過IPv6+實現(xiàn)端到端優(yōu)化,滿足更多業(yè)務場景需要。確定性網(wǎng)絡讓綠色算力得以就近高效調用,穩(wěn)固國家算力供給。
到了邊緣場景,比如家庭、園區(qū)等,是AI算力接入終端設備的“最后一公里”,你我手中的AI設備、無人車、巡檢機器人等想要算的快、算的穩(wěn),新華三也帶來了解決方案。通過 Cloudnet云管網(wǎng)絡方案、SD-WAN等方案,讓邊緣算力部署變得更簡單、高效。
上述產(chǎn)品和方案融合在一起,讓我們看到了新華三網(wǎng)絡在智算產(chǎn)業(yè)中,起到了定海神針一樣的作用,成為中國打破算力桎梏的一股關鍵力量。
![]()
新華三鑄造的網(wǎng)絡杠桿,讓國產(chǎn)GPU不再因兼容問題而頻繁撞墻,讓萬卡集群不再為互聯(lián)瓶頸而浪費算力,讓“東數(shù)西算”不再受遼闊地域的傳輸限制。這根杠桿承得起大國智算的重托,也護得住千行百業(yè)的算力需求,成為行業(yè)智能化的底氣。
那么緊接著的問題就是,為什么新華三能提供更優(yōu)解?作為智算網(wǎng)絡服務商,新華三有幾個獨特的地方:
一是雙腿有力。
新華三是兩條腿走路,計算、聯(lián)接兩大領域的深耕,可以實現(xiàn)算網(wǎng)的深度融合創(chuàng)新,是其他純網(wǎng)絡或純計算廠商難以復制的壁壘。
比如交換機的工程化能力,讓新華三的網(wǎng)絡設備具備光模塊適配、液冷架構兼容等細節(jié)設計,從而突破物理極限。在計算領域,對GPU通信協(xié)議、AI訓練流量模型的深刻理解,讓網(wǎng)絡不再是被動傳輸?shù)墓艿溃梢詾閿?shù)據(jù)、算子和模型提供最優(yōu)路線。
![]()
二是心態(tài)開放。
強大如孫悟空也得跟人組隊,才能取到真經(jīng),新華三智算網(wǎng)絡方案能兼容國產(chǎn)GPU與異構算力,核心就在于“不搞封閉全家桶”的開放戰(zhàn)略。
不僅是心態(tài)上開放,也切實貢獻了力量。首創(chuàng)的DDC架構的信元轉發(fā)技術,讓各家國產(chǎn)AI芯片能在同一套網(wǎng)絡體系中協(xié)同作戰(zhàn),釋放最大威力,是國芯提高市占率的助力。與江蘇省未來網(wǎng)絡創(chuàng)新研究院聯(lián)合攻關確定性網(wǎng)絡,與江蘇電信合作邊緣網(wǎng)關方案,與GPU廠商共建測試認證體系……作為系統(tǒng)級廠商的新華三,把自己變成了生態(tài)樞紐,讓產(chǎn)業(yè)鏈各方在其網(wǎng)絡底座上各展神通,自然能打造出別具競爭力的產(chǎn)品和解決方案。
![]()
三是實戰(zhàn)能打。
技術從實驗室到產(chǎn)業(yè)有一條死亡之谷,無法被工程化、產(chǎn)品化的技術只能束之高閣。新華三的工程化能力,擅長將技術創(chuàng)新轉化成客戶易用、易部署的產(chǎn)品。
喬剡就提到,S9828-128EP交換機的液冷設計,既要考慮散熱效率,又要兼容現(xiàn)有機房,所以在產(chǎn)品背后,新華三做了大量復雜的技術工作。而因為實戰(zhàn)中能打,新華三可以“把困難留給自己,便利留給客戶”,用優(yōu)質的產(chǎn)品與服務打動客戶。
對于中國AI和智算產(chǎn)業(yè)來說,當網(wǎng)絡從配套設施變成關鍵杠桿,當新華三的技術方案支撐起從中心到邊緣的全場景算力釋放,才算真正握住了不被算力卡脖子的未來。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.