大模型產(chǎn)業(yè)正在經(jīng)歷一場并不喧鬧卻足夠深刻的結(jié)構(gòu)性轉(zhuǎn)向。過去兩年,整個行業(yè)在造模型和堆GPU上不斷加碼,英偉達(dá)幾乎成為所有基礎(chǔ)設(shè)施討論的起點和終點。
然而,當(dāng)模型開始真正走向規(guī)模化推理、走向企業(yè)級落地、走向多模態(tài)和長上下文的新階段之后,人們才逐漸意識到,決定 AI 體驗、成本和性能的關(guān)鍵,不再只是更大的 GPU 集群,隱藏在算力體系背后、曾長期被視為后臺工程的“存力”,浮出水面。
民生證券最新研報指出,受益于AI需求的強勁拉動,2025年第四季度存儲價格有望持續(xù)看漲。這一積極預(yù)測,源于AI應(yīng)用對存儲提出更高要求,以及服務(wù)器端對高階DRAM和HBM的需求增長,擠占了消費級DRAM的產(chǎn)能。
在日前由中國信息通信研究院組織的“先進存力 AI 推理工作研討會”上,行業(yè)嘉賓達(dá)成共識,推理時代的性能瓶頸、成本壓力和體驗優(yōu)化,正在從算力側(cè)轉(zhuǎn)移到存儲側(cè),先進存力不再是配角,而是推動 AI 真正落地的主動力量之一。
推理,正在改變 AI 產(chǎn)業(yè)的優(yōu)先級
如果說過去兩年是“參數(shù)規(guī)模”的軍備競賽,那么 2025 年開始的階段則更接近“推理效率”的商業(yè)競爭。Token調(diào)用量爆發(fā)式增長,推理成本持續(xù)攀升,在AI推理的性能指標(biāo)中,都是以“Token數(shù)”為量綱。
AI加速落地,意味著“Token經(jīng)濟”的時代。模型訓(xùn)練可以只發(fā)生在幾個大型企業(yè)的超級節(jié)點中,但模型推理則遍布千行百業(yè)、無數(shù)產(chǎn)品端,決定著實際用戶體驗、服務(wù)成本和業(yè)務(wù)可持續(xù)性。
![]()
推理負(fù)載的根本變化集中在三個方面:
- 第一,長上下文和復(fù)雜任務(wù)讓 KVCache 從模型的“臨時記憶”變成影響性能的核心資產(chǎn),其容量隨輸入長度呈指數(shù)級增長;
- 第二,多模態(tài)從文本擴展到圖像、音頻、視頻和時序數(shù)據(jù),原本簡單的順序讀寫I/O模式已無法滿足實時推理的復(fù)雜需求;
- 第三,訓(xùn)推一體化趨勢加速,模型在持續(xù)迭代和增量更新,推理系統(tǒng)需要在高負(fù)載下保持一致性、低延遲和穩(wěn)定性。
這些變化共同導(dǎo)致一個現(xiàn)實——GPU 不是算不動,而是經(jīng)常在“等數(shù)據(jù)”。當(dāng) HBM 無法容納不斷膨脹的 KVCache,當(dāng)多模態(tài)輸入讓 I/O 鏈路變得擁堵,當(dāng)存儲延遲上下波動影響推理任務(wù)調(diào)度,GPU 的利用率下降并不因為算力不足,而是數(shù)據(jù)供給不上來。
于是,推理系統(tǒng)出現(xiàn)了越來越明顯的存力瓶頸,算力資源在無謂地空轉(zhuǎn),直接推高了推理成本。數(shù)據(jù)顯示,在推理側(cè)每提升 20% 的算力利用率,就能帶來 15%—18% 的整體成本下降,這一數(shù)字相比多少張GPU卡的投入,顯然更具性價比。
算力不再稀缺,真正稀缺的是“把 GPU 喂飽”的能力
傳統(tǒng)的信息基礎(chǔ)設(shè)施中,存儲的角色通常偏向“被動”。它存放數(shù)據(jù)、提供容量、保證安全與持久化。然而在大模型推理場景中,存儲開始承擔(dān)起一部分“助推計算”的職責(zé):如何更快地將數(shù)據(jù)送到模型手中,如何讓 KVCache 不阻塞推理,如何在不同模態(tài)間實現(xiàn)高效的數(shù)據(jù)編織,如何在訓(xùn)推混合負(fù)載下保持穩(wěn)定性能,這些都決定了最終的推理吞吐和延遲。
行業(yè)的通常做法是通過分層緩存 + 動態(tài)調(diào)度提升 KVCache 管理效率,將系統(tǒng)劃分為本地極速層、共享擴展層與冷備層,以異構(gòu)介質(zhì)對應(yīng)不同場景的數(shù)據(jù)特性,并根據(jù)訪問頻率與時延訴求自動決策數(shù)據(jù)存放位置,從而在容量擴展、熱點響應(yīng)和成本控制三方面取得平衡。
中國移動云能力中心項目總師周宇表示,為提升數(shù)據(jù)流轉(zhuǎn)效率,移動云正在推進基于 CXL 的新型高速互聯(lián),通過將 CPU 內(nèi)存、GPU 顯存及云主機內(nèi)的閃存統(tǒng)一池化,使系統(tǒng)能夠按需分配存儲與內(nèi)存資源,突破傳統(tǒng)架構(gòu)的物理邊界。配合數(shù)據(jù)編織技術(shù),多模態(tài)數(shù)據(jù)可在跨域環(huán)境下進行高效流轉(zhuǎn),以實現(xiàn)“一次寫入、多模訪問”的統(tǒng)一體驗。
華為數(shù)據(jù)存儲產(chǎn)品線戰(zhàn)略與業(yè)務(wù)發(fā)展部總裁王旭東提到,IT基礎(chǔ)設(shè)施能力面臨三大挑戰(zhàn):“管不好” 的數(shù)據(jù)、“喂不飽” 的算力、“降不下”的成本。推理數(shù)據(jù)來源多樣難以形成高質(zhì)量、可持續(xù)供應(yīng)的數(shù)據(jù)集,存儲系統(tǒng)的帶寬和IOPS(每秒讀寫次數(shù))不足,導(dǎo)致GPU等昂貴算力資源長時間空閑。
推理時代的存儲不再是以容量為中心,而是以“數(shù)據(jù)流動”為中心,因此必須圍繞數(shù)據(jù)采集、治理、緩存、流轉(zhuǎn)構(gòu)建一套新的體系。
他表示,傳統(tǒng)存儲架構(gòu)難以兼顧高吞吐、低時延及異構(gòu)數(shù)據(jù)融合的需求,造成業(yè)務(wù)發(fā)展瓶頸,阻礙AI應(yīng)用落地。華為針對AI推理研發(fā)的UCM推理記憶數(shù)據(jù)管理技術(shù)在行業(yè)落地中的核心作用,通過“集中高質(zhì)數(shù)據(jù)、提速AI訓(xùn)練、優(yōu)化推理效能”三個角度,打造AI推理加速解決方案。
![]()
華為在與運營商的合作中已經(jīng)驗證:對萬卡集群進行全棧存力優(yōu)化后,訓(xùn)練可以連續(xù)運行 22 天不間斷,算效提升超過 50%,推理吞吐也同時得到顯著改善。
北京硅基流動科技有限公司解決方案總監(jiān)唐安波從框架層切入推理效率,硅基流動構(gòu)建的AI infra工具鏈,聚焦提升算力利用率。核心推理框架適配100多款開源大模型,并通過公有云服務(wù)平臺為廣大開發(fā)者和企業(yè)提供優(yōu)質(zhì)的大模型服務(wù)。
解決方案上,結(jié)合UCM技術(shù)卸載KVCache釋放顯存、提升性能,還通過智能網(wǎng)關(guān)優(yōu)化調(diào)度、彈性擴縮容應(yīng)對長上下文等痛點,基于存儲的KVCache方案可大幅提升系統(tǒng)吞吐。
下一代 AI 底座:存力的新共識
當(dāng)人們討論大模型的能力時,總習(xí)慣于關(guān)注參數(shù)規(guī)模、推理速度、token上限,但真正決定這些能力能否商業(yè)化的,是底層的“數(shù)據(jù)流動能力”。訓(xùn)練靠GPU,推理靠體系,而體系的核心越來越不是算多少、算多快,而是“如何讓算力不被浪費”。
先進存力之所以成為行業(yè)焦點,不是因為存儲廠商突然活躍,也不是存儲顆粒漲價,而是整個 AI 推理體系遇到了結(jié)構(gòu)性瓶頸。只有讓數(shù)據(jù)能夠在多模態(tài)、多級緩存、池化架構(gòu)中更加高效、可靠地流動,大模型的能力才能真正轉(zhuǎn)化為體驗、業(yè)務(wù)與價值。
未來三年,至少有四個方向會成為產(chǎn)業(yè)共識。其一,GPU 不再是最稀缺的資源,真正的稀缺是“喂飽 GPU 的能力”。當(dāng) GPU 性能增長遇到邊際收益下降,而推理負(fù)載持續(xù)增長時,如何提高 GPU 利用率比繼續(xù)堆卡更具價值。存力池化、CXL 布局、多級緩存體系和 KVCache 外存化將成為必要能力。
其二,多模態(tài)帶來的數(shù)據(jù)爆炸會讓存儲從“存放數(shù)據(jù)”走向“管理數(shù)據(jù)”。它將成為 AI 系統(tǒng)的主動組件,而不是被動容器。數(shù)據(jù)如何分類、如何治理、如何調(diào)度、如何快速靠近算力,將直接定義推理體驗。
其三,訓(xùn)推一體化使存儲系統(tǒng)的“實時性”從可選變?yōu)楸剡x。在過去,訓(xùn)練對業(yè)務(wù)實時性影響不大,但未來增量訓(xùn)練和在線推理合流,一次 IO 放大可能直接導(dǎo)致前臺延遲波動。存儲不再只是后端,而成為業(yè)務(wù)鏈路的一部分。
其四,CXL 架構(gòu)將重塑未來 AI 基礎(chǔ)設(shè)施的內(nèi)存與存儲邊界。CXL 不是某個廠商的技術(shù),而是一種新架構(gòu)語言,它讓內(nèi)存不再綁定 CPU,也讓顯存不再成為孤島,構(gòu)造出一種算力存力一體化的可能。
未來的 AI 競爭,不會只停留在模型比拼上,而是深入到底座重構(gòu)之中。(本文作者 | 張帥,編輯 | 蓋虹達(dá))
更多對全球市場、跨國公司和中國經(jīng)濟的深度分析與獨家洞察,歡迎訪問 Barron's巴倫中文網(wǎng)官方網(wǎng)站
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.