<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Token經(jīng)濟時代,AI推理跑不快的瓶頸是“存力”?

      0
      分享至

      大模型產(chǎn)業(yè)正在經(jīng)歷一場并不喧鬧卻足夠深刻的結(jié)構(gòu)性轉(zhuǎn)向。過去兩年,整個行業(yè)在造模型和堆GPU上不斷加碼,英偉達(dá)幾乎成為所有基礎(chǔ)設(shè)施討論的起點和終點。

      然而,當(dāng)模型開始真正走向規(guī)模化推理、走向企業(yè)級落地、走向多模態(tài)和長上下文的新階段之后,人們才逐漸意識到,決定 AI 體驗、成本和性能的關(guān)鍵,不再只是更大的 GPU 集群,隱藏在算力體系背后、曾長期被視為后臺工程的“存力”,浮出水面。

      民生證券最新研報指出,受益于AI需求的強勁拉動,2025年第四季度存儲價格有望持續(xù)看漲。這一積極預(yù)測,源于AI應(yīng)用對存儲提出更高要求,以及服務(wù)器端對高階DRAM和HBM的需求增長,擠占了消費級DRAM的產(chǎn)能。

      在日前由中國信息通信研究院組織的“先進存力 AI 推理工作研討會”上,行業(yè)嘉賓達(dá)成共識,推理時代的性能瓶頸、成本壓力和體驗優(yōu)化,正在從算力側(cè)轉(zhuǎn)移到存儲側(cè),先進存力不再是配角,而是推動 AI 真正落地的主動力量之一。

      推理,正在改變 AI 產(chǎn)業(yè)的優(yōu)先級

      如果說過去兩年是“參數(shù)規(guī)模”的軍備競賽,那么 2025 年開始的階段則更接近“推理效率”的商業(yè)競爭。Token調(diào)用量爆發(fā)式增長,推理成本持續(xù)攀升,在AI推理的性能指標(biāo)中,都是以“Token數(shù)”為量綱。

      AI加速落地,意味著“Token經(jīng)濟”的時代。模型訓(xùn)練可以只發(fā)生在幾個大型企業(yè)的超級節(jié)點中,但模型推理則遍布千行百業(yè)、無數(shù)產(chǎn)品端,決定著實際用戶體驗、服務(wù)成本和業(yè)務(wù)可持續(xù)性。


      推理負(fù)載的根本變化集中在三個方面:

      • 第一,長上下文和復(fù)雜任務(wù)讓 KVCache 從模型的“臨時記憶”變成影響性能的核心資產(chǎn),其容量隨輸入長度呈指數(shù)級增長;
      • 第二,多模態(tài)從文本擴展到圖像、音頻、視頻和時序數(shù)據(jù),原本簡單的順序讀寫I/O模式已無法滿足實時推理的復(fù)雜需求;
      • 第三,訓(xùn)推一體化趨勢加速,模型在持續(xù)迭代和增量更新,推理系統(tǒng)需要在高負(fù)載下保持一致性、低延遲和穩(wěn)定性。

      這些變化共同導(dǎo)致一個現(xiàn)實——GPU 不是算不動,而是經(jīng)常在“等數(shù)據(jù)”。當(dāng) HBM 無法容納不斷膨脹的 KVCache,當(dāng)多模態(tài)輸入讓 I/O 鏈路變得擁堵,當(dāng)存儲延遲上下波動影響推理任務(wù)調(diào)度,GPU 的利用率下降并不因為算力不足,而是數(shù)據(jù)供給不上來。

      于是,推理系統(tǒng)出現(xiàn)了越來越明顯的存力瓶頸,算力資源在無謂地空轉(zhuǎn),直接推高了推理成本。數(shù)據(jù)顯示,在推理側(cè)每提升 20% 的算力利用率,就能帶來 15%—18% 的整體成本下降,這一數(shù)字相比多少張GPU卡的投入,顯然更具性價比。

      算力不再稀缺,真正稀缺的是“把 GPU 喂飽”的能力

      傳統(tǒng)的信息基礎(chǔ)設(shè)施中,存儲的角色通常偏向“被動”。它存放數(shù)據(jù)、提供容量、保證安全與持久化。然而在大模型推理場景中,存儲開始承擔(dān)起一部分“助推計算”的職責(zé):如何更快地將數(shù)據(jù)送到模型手中,如何讓 KVCache 不阻塞推理,如何在不同模態(tài)間實現(xiàn)高效的數(shù)據(jù)編織,如何在訓(xùn)推混合負(fù)載下保持穩(wěn)定性能,這些都決定了最終的推理吞吐和延遲。

      行業(yè)的通常做法是通過分層緩存 + 動態(tài)調(diào)度提升 KVCache 管理效率,將系統(tǒng)劃分為本地極速層、共享擴展層與冷備層,以異構(gòu)介質(zhì)對應(yīng)不同場景的數(shù)據(jù)特性,并根據(jù)訪問頻率與時延訴求自動決策數(shù)據(jù)存放位置,從而在容量擴展、熱點響應(yīng)和成本控制三方面取得平衡。

      中國移動云能力中心項目總師周宇表示,為提升數(shù)據(jù)流轉(zhuǎn)效率,移動云正在推進基于 CXL 的新型高速互聯(lián),通過將 CPU 內(nèi)存、GPU 顯存及云主機內(nèi)的閃存統(tǒng)一池化,使系統(tǒng)能夠按需分配存儲與內(nèi)存資源,突破傳統(tǒng)架構(gòu)的物理邊界。配合數(shù)據(jù)編織技術(shù),多模態(tài)數(shù)據(jù)可在跨域環(huán)境下進行高效流轉(zhuǎn),以實現(xiàn)“一次寫入、多模訪問”的統(tǒng)一體驗。

      華為數(shù)據(jù)存儲產(chǎn)品線戰(zhàn)略與業(yè)務(wù)發(fā)展部總裁王旭東提到,IT基礎(chǔ)設(shè)施能力面臨三大挑戰(zhàn):“管不好” 的數(shù)據(jù)、“喂不飽” 的算力、“降不下”的成本。推理數(shù)據(jù)來源多樣難以形成高質(zhì)量、可持續(xù)供應(yīng)的數(shù)據(jù)集,存儲系統(tǒng)的帶寬和IOPS(每秒讀寫次數(shù))不足,導(dǎo)致GPU等昂貴算力資源長時間空閑。

      推理時代的存儲不再是以容量為中心,而是以“數(shù)據(jù)流動”為中心,因此必須圍繞數(shù)據(jù)采集、治理、緩存、流轉(zhuǎn)構(gòu)建一套新的體系。

      他表示,傳統(tǒng)存儲架構(gòu)難以兼顧高吞吐、低時延及異構(gòu)數(shù)據(jù)融合的需求,造成業(yè)務(wù)發(fā)展瓶頸,阻礙AI應(yīng)用落地。華為針對AI推理研發(fā)的UCM推理記憶數(shù)據(jù)管理技術(shù)在行業(yè)落地中的核心作用,通過“集中高質(zhì)數(shù)據(jù)、提速AI訓(xùn)練、優(yōu)化推理效能”三個角度,打造AI推理加速解決方案。


      華為在與運營商的合作中已經(jīng)驗證:對萬卡集群進行全棧存力優(yōu)化后,訓(xùn)練可以連續(xù)運行 22 天不間斷,算效提升超過 50%,推理吞吐也同時得到顯著改善。

      北京硅基流動科技有限公司解決方案總監(jiān)唐安波從框架層切入推理效率,硅基流動構(gòu)建的AI infra工具鏈,聚焦提升算力利用率。核心推理框架適配100多款開源大模型,并通過公有云服務(wù)平臺為廣大開發(fā)者和企業(yè)提供優(yōu)質(zhì)的大模型服務(wù)。

      解決方案上,結(jié)合UCM技術(shù)卸載KVCache釋放顯存、提升性能,還通過智能網(wǎng)關(guān)優(yōu)化調(diào)度、彈性擴縮容應(yīng)對長上下文等痛點,基于存儲的KVCache方案可大幅提升系統(tǒng)吞吐。

      下一代 AI 底座:存力的新共識

      當(dāng)人們討論大模型的能力時,總習(xí)慣于關(guān)注參數(shù)規(guī)模、推理速度、token上限,但真正決定這些能力能否商業(yè)化的,是底層的“數(shù)據(jù)流動能力”。訓(xùn)練靠GPU,推理靠體系,而體系的核心越來越不是算多少、算多快,而是“如何讓算力不被浪費”。

      先進存力之所以成為行業(yè)焦點,不是因為存儲廠商突然活躍,也不是存儲顆粒漲價,而是整個 AI 推理體系遇到了結(jié)構(gòu)性瓶頸。只有讓數(shù)據(jù)能夠在多模態(tài)、多級緩存、池化架構(gòu)中更加高效、可靠地流動,大模型的能力才能真正轉(zhuǎn)化為體驗、業(yè)務(wù)與價值。

      未來三年,至少有四個方向會成為產(chǎn)業(yè)共識。其一,GPU 不再是最稀缺的資源,真正的稀缺是“喂飽 GPU 的能力”。當(dāng) GPU 性能增長遇到邊際收益下降,而推理負(fù)載持續(xù)增長時,如何提高 GPU 利用率比繼續(xù)堆卡更具價值。存力池化、CXL 布局、多級緩存體系和 KVCache 外存化將成為必要能力。

      其二,多模態(tài)帶來的數(shù)據(jù)爆炸會讓存儲從“存放數(shù)據(jù)”走向“管理數(shù)據(jù)”。它將成為 AI 系統(tǒng)的主動組件,而不是被動容器。數(shù)據(jù)如何分類、如何治理、如何調(diào)度、如何快速靠近算力,將直接定義推理體驗。

      其三,訓(xùn)推一體化使存儲系統(tǒng)的“實時性”從可選變?yōu)楸剡x。在過去,訓(xùn)練對業(yè)務(wù)實時性影響不大,但未來增量訓(xùn)練和在線推理合流,一次 IO 放大可能直接導(dǎo)致前臺延遲波動。存儲不再只是后端,而成為業(yè)務(wù)鏈路的一部分。

      其四,CXL 架構(gòu)將重塑未來 AI 基礎(chǔ)設(shè)施的內(nèi)存與存儲邊界。CXL 不是某個廠商的技術(shù),而是一種新架構(gòu)語言,它讓內(nèi)存不再綁定 CPU,也讓顯存不再成為孤島,構(gòu)造出一種算力存力一體化的可能。

      未來的 AI 競爭,不會只停留在模型比拼上,而是深入到底座重構(gòu)之中。(本文作者 | 張帥,編輯 | 蓋虹達(dá))

      更多對全球市場、跨國公司和中國經(jīng)濟的深度分析與獨家洞察,歡迎訪問 Barron's巴倫中文網(wǎng)官方網(wǎng)站

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      政府關(guān)門35天終于釀成大禍?一架波音飛機撞向大樓,現(xiàn)場十分慘烈

      政府關(guān)門35天終于釀成大禍?一架波音飛機撞向大樓,現(xiàn)場十分慘烈

      哄動一時啊
      2025-11-07 21:21:29
      荷蘭政府:預(yù)計安世中國將很快恢復(fù)芯片供應(yīng),荷方將繼續(xù)與中方、歐盟等密切協(xié)調(diào)

      荷蘭政府:預(yù)計安世中國將很快恢復(fù)芯片供應(yīng),荷方將繼續(xù)與中方、歐盟等密切協(xié)調(diào)

      界面新聞
      2025-11-07 14:54:07
      央視對全紅嬋的稱呼變了,兩字之差釋放強烈信號,陳宇汐說對了

      央視對全紅嬋的稱呼變了,兩字之差釋放強烈信號,陳宇汐說對了

      探源歷史
      2025-11-06 08:50:00
      太炸裂!副院長和主任縱歡后續(xù):手術(shù)單當(dāng)床單,身份被扒不簡單!

      太炸裂!副院長和主任縱歡后續(xù):手術(shù)單當(dāng)床單,身份被扒不簡單!

      千言娛樂記
      2025-11-06 10:48:47
      貂皮水洗退貨后續(xù):警方介入,寶媽身份被扒徹底社死 商家有后手

      貂皮水洗退貨后續(xù):警方介入,寶媽身份被扒徹底社死 商家有后手

      攬星河的筆記
      2025-11-06 13:58:48
      美國選舉結(jié)果利好烏克蘭

      美國選舉結(jié)果利好烏克蘭

      名人茍或
      2025-11-06 16:40:48
      打虎!方紅衛(wèi)被查

      打虎!方紅衛(wèi)被查

      極目新聞
      2025-11-07 20:14:29
      錢再多有什么用!印度首富3個孩子各有短板,沒人能繼承家族事業(yè)

      錢再多有什么用!印度首富3個孩子各有短板,沒人能繼承家族事業(yè)

      照見古今
      2025-11-07 19:52:50
      絕不當(dāng)“冤大頭”!菲律賓災(zāi)情慘烈,西方援助敷衍,中國不能慣著

      絕不當(dāng)“冤大頭”!菲律賓災(zāi)情慘烈,西方援助敷衍,中國不能慣著

      博卜talk
      2025-11-07 16:27:23
      不裝了?面對解放軍武力奪臺,鄭麗文語出驚人,喊出“武力保臺”

      不裝了?面對解放軍武力奪臺,鄭麗文語出驚人,喊出“武力保臺”

      趙釔是個熱血青年
      2025-11-05 17:29:23
      湖南人民醫(yī)院不雅視頻事件反轉(zhuǎn),網(wǎng)友力挺男女主角:發(fā)視頻的該殺

      湖南人民醫(yī)院不雅視頻事件反轉(zhuǎn),網(wǎng)友力挺男女主角:發(fā)視頻的該殺

      剛哥說法365
      2025-11-07 18:52:04
      成“老賴”不到72小時,于謙資產(chǎn)被扒底朝天,楊議的話有人信了

      成“老賴”不到72小時,于謙資產(chǎn)被扒底朝天,楊議的話有人信了

      科學(xué)發(fā)掘
      2025-10-31 14:06:52
      多名網(wǎng)友爆料,手機信號欄被運營商塞廣告

      多名網(wǎng)友爆料,手機信號欄被運營商塞廣告

      黑貓科技迷
      2025-11-06 22:00:39
      小米汽車99.4%保值率遭打臉:二手市場無人問津,誰都不敢接

      小米汽車99.4%保值率遭打臉:二手市場無人問津,誰都不敢接

      麥小柒
      2025-11-06 20:40:23
      林丹在西班牙為子慶生,謝杏芳盛裝笑容滿面,豪宅別墅顯得熱鬧

      林丹在西班牙為子慶生,謝杏芳盛裝笑容滿面,豪宅別墅顯得熱鬧

      科學(xué)發(fā)掘
      2025-11-06 13:42:50
      俄羅斯為啥不擔(dān)心芯片制造光刻機問題?除中國,其他國家都不擔(dān)心

      俄羅斯為啥不擔(dān)心芯片制造光刻機問題?除中國,其他國家都不擔(dān)心

      百態(tài)人間
      2025-10-31 05:35:02
      強烈建議:今后所有的乒乓球比賽,禁止球迷到現(xiàn)場觀看比賽和加油

      強烈建議:今后所有的乒乓球比賽,禁止球迷到現(xiàn)場觀看比賽和加油

      楊哥乒乓
      2025-11-07 19:45:29
      德國足協(xié)推出新logo:從草根到頂級

      德國足協(xié)推出新logo:從草根到頂級

      體壇周報
      2025-11-07 10:55:34
      杜蘭特嘲諷莫蘭特父親:你兒子不想在灰熊待了,享受最后的周末吧

      杜蘭特嘲諷莫蘭特父親:你兒子不想在灰熊待了,享受最后的周末吧

      懂球帝
      2025-11-07 08:31:13
      政治和軍事難平衡,波克羅夫斯克不行了,烏軍戰(zhàn)場形勢不盡如人意

      政治和軍事難平衡,波克羅夫斯克不行了,烏軍戰(zhàn)場形勢不盡如人意

      山河路口
      2025-11-07 12:45:23
      2025-11-08 00:11:00
      鈦媒體APP incentive-icons
      鈦媒體APP
      獨立財經(jīng)科技媒體
      125996文章數(shù) 861355關(guān)注度
      往期回顧 全部

      科技要聞

      75%贊成!特斯拉股東同意馬斯克天價薪酬

      頭條要聞

      家長稱男嬰被兩個不滿12周歲女孩害死:拿她們沒辦法

      頭條要聞

      家長稱男嬰被兩個不滿12周歲女孩害死:拿她們沒辦法

      體育要聞

      是天才更是強者,18歲的全紅嬋邁過三道坎

      娛樂要聞

      王家衛(wèi)的“看人下菜碟”?

      財經(jīng)要聞

      荷蘭政府:安世中國將很快恢復(fù)芯片供應(yīng)

      汽車要聞

      美式豪華就是舒適省心 林肯航海家場地試駕

      態(tài)度原創(chuàng)

      旅游
      本地
      房產(chǎn)
      藝術(shù)
      公開課

      旅游要聞

      四川這座村落為何吸引全球目光?探訪“最佳旅游鄉(xiāng)村”

      本地新聞

      這屆干飯人,已經(jīng)把博物館吃成了食堂

      房產(chǎn)要聞

      全國2025唯一“開盤即百億”在廣州誕生

      藝術(shù)要聞

      Donna Young:美國當(dāng)代藝術(shù)家

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 国产精品亚洲二区在线播放 | 国产精品有码在线观看| 国产成人精品亚洲精品密奴| 日韩av毛片福利国产福利| 中文字幕无码免费久久9一区9| 亚洲国产精品一二三区| 成人亚欧欧美激情在线观看| 亚洲 卡通 欧美 制服 中文 | 国产欧美综合在线观看第十页| 国内精品久久久久影院日本| 人妻激情偷乱视频一区二区三区| 久久国产乱子伦免费精品无码| 热久久这里只有精品国产| 成人亚洲国产精品一区不卡 | 修水县| 国内外成人综合免费视频| 亚洲午夜香蕉久久精品| 亚洲AV美女在线播放啊| 日本高清视频在线www色| 亚洲一级特黄大片在线观看| 免费无码一区无码东京热| 国产欧美亚洲精品a| 国产99在线 | 欧美| 亚洲综合一区二区精品导航| 性欧美videofree高清精品 | 日韩人妻无码精品久久久不卡| 国产精品一区二区不卡91| 99中文字幕国产精品| 三级国产三级在线| 97一区二区国产好的精华液| 99久久无色码中文字幕| 爆乳日韩尤物无码一区| 亚洲 成人 无码 在线观看| 久久精品国产成人午夜福利| 五月天中文字幕mv在线| 资源在线观看视频一区二区| 久久国产精品二国产人妻| 国产精品18久久久久久麻辣 | 亚洲小说乱欧美另类| 亚洲av男人电影天堂热app| 国产欧美日韩综合精品一区二区|