中國信息通信研究院組織召開的“存力中國行”北京站活動于11月4日舉行,吸引了來自中國移動、華為、硅基流動等近20家產業代表齊聚一堂。隨著AI產業發展重心從“追求模型能力極限”轉向“追求推理體驗最優化”,先進存力如何為AI推理“降本增效”,成為全場關注焦點。
“當前,AI推理面臨KVCache存儲需求升級、多模態數據協同、存算協同帶寬不足、負載潮汐性及成本控制等挑戰。”中國移動云能力中心項目總師周宇在座談會上直言。華為數據存儲產品線戰略與業務發展部總裁王旭東則用三個“不”點明了行業痛點:“管不好”的數據、“喂不飽”的算力和“降不下”的成本。
在此背景下,華為開源的UCM(UnifiedCacheManager)推理記憶數據管理技術被視為破局的關鍵方案之一。該技術以KVCache多級緩存和推理記憶管理為中心,通過推理框架、算力、存儲的三層協同,融合了多類型緩存加速算法工具,可分級管理在推理過程中產生的KVCache記憶數據,有效破解長序列推理效率與成本瓶頸。
據悉,UCM技術已于近日在魔擎社區開源,開源內容包含稀疏注意力、前綴緩存、預填充卸載、異構PD解耦四大關鍵能力,可使首輪Token時延最高降低90%,系統吞吐最大提升22倍,并達到10倍級上下文窗口擴展,顯著提升AI推理性能。同時,其基礎框架與工具鏈已在ModelEngine社區開放,開發者可通過社區獲取源代碼與技術文檔,共同完善技術架構與產業生態。
業界普遍認為,UCM開源超越了單純的技術共享,能讓廣大開發者和企業能夠以更低的成本、更便捷的方式,獲取業界領先的AI推理加速能力,推動AI推理技術走向規模化、普惠化落地。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.