中國信息通信研究院組織召開的“存力中國行”北京站活動于11月4日舉行,吸引了來自中國移動、華為、硅基流動等近20家產(chǎn)業(yè)代表齊聚一堂。隨著AI產(chǎn)業(yè)發(fā)展重心從“追求模型能力極限”轉(zhuǎn)向“追求推理體驗最優(yōu)化”,先進(jìn)存力如何為AI推理“降本增效”,成為全場關(guān)注焦點。
“當(dāng)前,AI推理面臨KVCache存儲需求升級、多模態(tài)數(shù)據(jù)協(xié)同、存算協(xié)同帶寬不足、負(fù)載潮汐性及成本控制等挑戰(zhàn)。”中國移動云能力中心項目總師周宇在座談會上直言。華為數(shù)據(jù)存儲產(chǎn)品線戰(zhàn)略與業(yè)務(wù)發(fā)展部總裁王旭東則用三個“不”點明了行業(yè)痛點:“管不好”的數(shù)據(jù)、“喂不飽”的算力和“降不下”的成本。
在此背景下,華為開源的UCM(UnifiedCacheManager)推理記憶數(shù)據(jù)管理技術(shù)被視為破局的關(guān)鍵方案之一。該技術(shù)以KVCache多級緩存和推理記憶管理為中心,通過推理框架、算力、存儲的三層協(xié)同,融合了多類型緩存加速算法工具,可分級管理在推理過程中產(chǎn)生的KVCache記憶數(shù)據(jù),有效破解長序列推理效率與成本瓶頸。
據(jù)悉,UCM技術(shù)已于近日在魔擎社區(qū)開源,開源內(nèi)容包含稀疏注意力、前綴緩存、預(yù)填充卸載、異構(gòu)PD解耦四大關(guān)鍵能力,可使首輪Token時延最高降低90%,系統(tǒng)吞吐最大提升22倍,并達(dá)到10倍級上下文窗口擴(kuò)展,顯著提升AI推理性能。同時,其基礎(chǔ)框架與工具鏈已在ModelEngine社區(qū)開放,開發(fā)者可通過社區(qū)獲取源代碼與技術(shù)文檔,共同完善技術(shù)架構(gòu)與產(chǎn)業(yè)生態(tài)。
業(yè)界普遍認(rèn)為,UCM開源超越了單純的技術(shù)共享,能讓廣大開發(fā)者和企業(yè)能夠以更低的成本、更便捷的方式,獲取業(yè)界領(lǐng)先的AI推理加速能力,推動AI推理技術(shù)走向規(guī)模化、普惠化落地。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.