Token經(jīng)濟時代，AI推理跑不快的瓶頸是“存力”？

2025-11-07 12:05:21　來源: 鈦媒體APP

北京舉報

分享至

大模型產(chǎn)業(yè)正在經(jīng)歷一場并不喧鬧卻足夠深刻的結(jié)構(gòu)性轉(zhuǎn)向。過去兩年，整個行業(yè)在造模型和堆GPU上不斷加碼，英偉達(dá)幾乎成為所有基礎(chǔ)設(shè)施討論的起點和終點。

然而，當(dāng)模型開始真正走向規(guī)模化推理、走向企業(yè)級落地、走向多模態(tài)和長上下文的新階段之后，人們才逐漸意識到，決定 AI 體驗、成本和性能的關(guān)鍵，不再只是更大的 GPU 集群，隱藏在算力體系背后、曾長期被視為后臺工程的“存力”，浮出水面。

民生證券最新研報指出，受益于AI需求的強勁拉動，2025年第四季度存儲價格有望持續(xù)看漲。這一積極預(yù)測，源于AI應(yīng)用對存儲提出更高要求，以及服務(wù)器端對高階DRAM和HBM的需求增長，擠占了消費級DRAM的產(chǎn)能。

在日前由中國信息通信研究院組織的“先進存力 AI 推理工作研討會”上，行業(yè)嘉賓達(dá)成共識，推理時代的性能瓶頸、成本壓力和體驗優(yōu)化，正在從算力側(cè)轉(zhuǎn)移到存儲側(cè)，先進存力不再是配角，而是推動 AI 真正落地的主動力量之一。

推理，正在改變 AI 產(chǎn)業(yè)的優(yōu)先級

如果說過去兩年是“參數(shù)規(guī)模”的軍備競賽，那么 2025 年開始的階段則更接近“推理效率”的商業(yè)競爭。Token調(diào)用量爆發(fā)式增長，推理成本持續(xù)攀升，在AI推理的性能指標(biāo)中，都是以“Token數(shù)”為量綱。

AI加速落地，意味著“Token經(jīng)濟”的時代。模型訓(xùn)練可以只發(fā)生在幾個大型企業(yè)的超級節(jié)點中，但模型推理則遍布千行百業(yè)、無數(shù)產(chǎn)品端，決定著實際用戶體驗、服務(wù)成本和業(yè)務(wù)可持續(xù)性。

推理負(fù)載的根本變化集中在三個方面：

第一，長上下文和復(fù)雜任務(wù)讓 KVCache 從模型的“臨時記憶”變成影響性能的核心資產(chǎn)，其容量隨輸入長度呈指數(shù)級增長；
第二，多模態(tài)從文本擴展到圖像、音頻、視頻和時序數(shù)據(jù)，原本簡單的順序讀寫I/O模式已無法滿足實時推理的復(fù)雜需求；
第三，訓(xùn)推一體化趨勢加速，模型在持續(xù)迭代和增量更新，推理系統(tǒng)需要在高負(fù)載下保持一致性、低延遲和穩(wěn)定性。

這些變化共同導(dǎo)致一個現(xiàn)實——GPU 不是算不動，而是經(jīng)常在“等數(shù)據(jù)”。當(dāng) HBM 無法容納不斷膨脹的 KVCache，當(dāng)多模態(tài)輸入讓 I/O 鏈路變得擁堵，當(dāng)存儲延遲上下波動影響推理任務(wù)調(diào)度，GPU 的利用率下降并不因為算力不足，而是數(shù)據(jù)供給不上來。

于是，推理系統(tǒng)出現(xiàn)了越來越明顯的存力瓶頸，算力資源在無謂地空轉(zhuǎn)，直接推高了推理成本。數(shù)據(jù)顯示，在推理側(cè)每提升 20% 的算力利用率，就能帶來 15%—18% 的整體成本下降，這一數(shù)字相比多少張GPU卡的投入，顯然更具性價比。

算力不再稀缺，真正稀缺的是“把 GPU 喂飽”的能力

傳統(tǒng)的信息基礎(chǔ)設(shè)施中，存儲的角色通常偏向“被動”。它存放數(shù)據(jù)、提供容量、保證安全與持久化。然而在大模型推理場景中，存儲開始承擔(dān)起一部分“助推計算”的職責(zé)：如何更快地將數(shù)據(jù)送到模型手中，如何讓 KVCache 不阻塞推理，如何在不同模態(tài)間實現(xiàn)高效的數(shù)據(jù)編織，如何在訓(xùn)推混合負(fù)載下保持穩(wěn)定性能，這些都決定了最終的推理吞吐和延遲。

行業(yè)的通常做法是通過分層緩存 + 動態(tài)調(diào)度提升 KVCache 管理效率，將系統(tǒng)劃分為本地極速層、共享擴展層與冷備層，以異構(gòu)介質(zhì)對應(yīng)不同場景的數(shù)據(jù)特性，并根據(jù)訪問頻率與時延訴求自動決策數(shù)據(jù)存放位置，從而在容量擴展、熱點響應(yīng)和成本控制三方面取得平衡。

中國移動云能力中心項目總師周宇表示，為提升數(shù)據(jù)流轉(zhuǎn)效率，移動云正在推進基于 CXL 的新型高速互聯(lián)，通過將 CPU 內(nèi)存、GPU 顯存及云主機內(nèi)的閃存統(tǒng)一池化，使系統(tǒng)能夠按需分配存儲與內(nèi)存資源，突破傳統(tǒng)架構(gòu)的物理邊界。配合數(shù)據(jù)編織技術(shù)，多模態(tài)數(shù)據(jù)可在跨域環(huán)境下進行高效流轉(zhuǎn)，以實現(xiàn)“一次寫入、多模訪問”的統(tǒng)一體驗。

華為數(shù)據(jù)存儲產(chǎn)品線戰(zhàn)略與業(yè)務(wù)發(fā)展部總裁王旭東提到，IT基礎(chǔ)設(shè)施能力面臨三大挑戰(zhàn)：“管不好” 的數(shù)據(jù)、“喂不飽” 的算力、“降不下”的成本。推理數(shù)據(jù)來源多樣難以形成高質(zhì)量、可持續(xù)供應(yīng)的數(shù)據(jù)集，存儲系統(tǒng)的帶寬和IOPS（每秒讀寫次數(shù)）不足，導(dǎo)致GPU等昂貴算力資源長時間空閑。

推理時代的存儲不再是以容量為中心，而是以“數(shù)據(jù)流動”為中心，因此必須圍繞數(shù)據(jù)采集、治理、緩存、流轉(zhuǎn)構(gòu)建一套新的體系。

他表示，傳統(tǒng)存儲架構(gòu)難以兼顧高吞吐、低時延及異構(gòu)數(shù)據(jù)融合的需求，造成業(yè)務(wù)發(fā)展瓶頸，阻礙AI應(yīng)用落地。華為針對AI推理研發(fā)的UCM推理記憶數(shù)據(jù)管理技術(shù)在行業(yè)落地中的核心作用，通過“集中高質(zhì)數(shù)據(jù)、提速AI訓(xùn)練、優(yōu)化推理效能”三個角度，打造AI推理加速解決方案。

華為在與運營商的合作中已經(jīng)驗證：對萬卡集群進行全棧存力優(yōu)化后，訓(xùn)練可以連續(xù)運行 22 天不間斷，算效提升超過 50%，推理吞吐也同時得到顯著改善。

北京硅基流動科技有限公司解決方案總監(jiān)唐安波從框架層切入推理效率，硅基流動構(gòu)建的AI infra工具鏈，聚焦提升算力利用率。核心推理框架適配100多款開源大模型，并通過公有云服務(wù)平臺為廣大開發(fā)者和企業(yè)提供優(yōu)質(zhì)的大模型服務(wù)。

解決方案上，結(jié)合UCM技術(shù)卸載KVCache釋放顯存、提升性能，還通過智能網(wǎng)關(guān)優(yōu)化調(diào)度、彈性擴縮容應(yīng)對長上下文等痛點，基于存儲的KVCache方案可大幅提升系統(tǒng)吞吐。

下一代 AI 底座：存力的新共識

當(dāng)人們討論大模型的能力時，總習(xí)慣于關(guān)注參數(shù)規(guī)模、推理速度、token上限，但真正決定這些能力能否商業(yè)化的，是底層的“數(shù)據(jù)流動能力”。訓(xùn)練靠GPU，推理靠體系，而體系的核心越來越不是算多少、算多快，而是“如何讓算力不被浪費”。

先進存力之所以成為行業(yè)焦點，不是因為存儲廠商突然活躍，也不是存儲顆粒漲價，而是整個 AI 推理體系遇到了結(jié)構(gòu)性瓶頸。只有讓數(shù)據(jù)能夠在多模態(tài)、多級緩存、池化架構(gòu)中更加高效、可靠地流動，大模型的能力才能真正轉(zhuǎn)化為體驗、業(yè)務(wù)與價值。

未來三年，至少有四個方向會成為產(chǎn)業(yè)共識。其一，GPU 不再是最稀缺的資源，真正的稀缺是“喂飽 GPU 的能力”。當(dāng) GPU 性能增長遇到邊際收益下降，而推理負(fù)載持續(xù)增長時，如何提高 GPU 利用率比繼續(xù)堆卡更具價值。存力池化、CXL 布局、多級緩存體系和 KVCache 外存化將成為必要能力。

其二，多模態(tài)帶來的數(shù)據(jù)爆炸會讓存儲從“存放數(shù)據(jù)”走向“管理數(shù)據(jù)”。它將成為 AI 系統(tǒng)的主動組件，而不是被動容器。數(shù)據(jù)如何分類、如何治理、如何調(diào)度、如何快速靠近算力，將直接定義推理體驗。

其三，訓(xùn)推一體化使存儲系統(tǒng)的“實時性”從可選變?yōu)楸剡x。在過去，訓(xùn)練對業(yè)務(wù)實時性影響不大，但未來增量訓(xùn)練和在線推理合流，一次 IO 放大可能直接導(dǎo)致前臺延遲波動。存儲不再只是后端，而成為業(yè)務(wù)鏈路的一部分。

其四，CXL 架構(gòu)將重塑未來 AI 基礎(chǔ)設(shè)施的內(nèi)存與存儲邊界。CXL 不是某個廠商的技術(shù)，而是一種新架構(gòu)語言，它讓內(nèi)存不再綁定 CPU，也讓顯存不再成為孤島，構(gòu)造出一種算力存力一體化的可能。

未來的 AI 競爭，不會只停留在模型比拼上，而是深入到底座重構(gòu)之中。（本文作者 | 張帥，編輯 | 蓋虹達(dá)）

更多對全球市場、跨國公司和中國經(jīng)濟的深度分析與獨家洞察，歡迎訪問 Barron's巴倫中文網(wǎng)官方網(wǎng)站

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.