![]()
智東西
作者 云鵬
編輯 李水青
智東西11月5日消息,剛剛,華為正式開源了UCM(Unified Cache Manager)推理記憶數(shù)據(jù)管理,這是一項針對AI推理加速的關(guān)鍵技術(shù)。
![]()
▲GitCode項目頁面
今年8月12日,華為正式發(fā)布了UCM技術(shù),發(fā)布會上華為公布,經(jīng)大量測試驗證,UCM可將首Token時延最高降低90%,系統(tǒng)吞吐最大提升22倍,實現(xiàn)10倍級上下文窗口擴展,AI推理性能顯著提升。
![]()
▲8月12日UCM技術(shù)發(fā)布,圖源:智東西
時隔近3個月,這一技術(shù)正式開源,比發(fā)布會上預(yù)計的9月稍晚。目前UCM在ModelEngine社區(qū)開放了基礎(chǔ)框架和工具鏈,開發(fā)者可以在社區(qū)獲取UCM源代碼和技術(shù)文檔。
![]()
▲Github項目頁面
GitCode開源地址:
https://gitcode.com/ModelEngine/unified-cache-management
Github開源地址:
https://github.com/ModelEngine-Group/unified-cache-management
總體來看,UCM是以KV Cache和記憶管理為中心的推理加速套件,可以提供全場景系列化推理加速方案,通過推理框架、算力、存儲三層協(xié)同,優(yōu)化Tokens在各業(yè)務(wù)環(huán)節(jié)中流轉(zhuǎn)的效率,破解長序列推理效率低、成本高的難題,以實現(xiàn)AI推理的更優(yōu)體驗、更低成本。其主要服務(wù)對象是企業(yè)用戶。
Agentic AI時代,AI推理的KV Cache容量增長已超出HBM的承載能力。通過一系列算法,UCM可根據(jù)記憶熱度在HBM、DRAM、SSD等存儲介質(zhì)中自動分級緩存,提升整個系統(tǒng)的效率,一定程度上降低對HBM的需求。
UCM融合了多類型緩存加速算法工具,可分級管理在推理過程中產(chǎn)生的KV Cache記憶數(shù)據(jù)。
UCM架構(gòu)包含多個協(xié)同工作的關(guān)鍵功能模塊,具體如下:
·UCM稀疏化模塊 (UcmSparseBase):兼容多種稀疏算法的統(tǒng)一基類,負責(zé)稀疏KV Cache Block的卸載、加載與計算,實現(xiàn)“零感知”插拔式稀疏化。在不影響整體推理流程的前提下,能夠靈活適配不同稀疏算法以提升推理效率。
·稀疏化KV管理器 (SparseKVManager):面向算法級定制的KV Cache Block分配總控器,各稀疏算法以多態(tài)子類形式將自身分配邏輯注入框架,實現(xiàn)不同稀疏算法策略與推理引擎解耦,滿足差異化推理場景需求。
·KV Cache存儲組件 (UcmKVStoreBase):負責(zé)提供與外部存儲通信的通用接口。該組件支持稀疏算法與存儲后端解耦,可無縫對接任意存儲系統(tǒng),同時支持前綴緩存,為數(shù)據(jù)存儲提供了靈活多樣的選擇。
·UCM連接器(UC Connector):橋接KV Cache存儲組件與推理引擎,保障數(shù)據(jù)在不同組件之間的高效傳輸,實現(xiàn)高可靠的前綴緩存能力。
![]()
▲UCM產(chǎn)品架構(gòu)
圖中所有灰色框代表vLLM 0.9.2版本中的現(xiàn)有類,綠色框則代表UCM新增組件。淺綠色框展示了基于此框架未來規(guī)劃擴展的子類。
基于以上架構(gòu),UCM目前具備四個關(guān)鍵能力:稀疏注意力、前綴緩存、預(yù)填充卸載、異構(gòu)PD解耦。
做UCM的動機是什么?
根據(jù)GitCode官方信息,當前隨著模型尺寸的不斷增長,KV緩存也變得越來越大,且越來越稀疏,對于長序列請求來說尤為明顯。為了減小GPU顯存的使用,主流的方向是將全量的KV數(shù)據(jù)卸載到外部存儲中,而在GPU顯存中只保留部分或者被壓縮的KV數(shù)據(jù)。這同時可以減小GPU的運算量,在解碼時增加最大生成序列長度和批大小。
有許多種不同的稀疏KV緩存的實現(xiàn)。最新的論文指出,能夠最好地適配所有場景和所有模型的方法是不存在的。因此,更好的做法是搭建一套公共的框架,并在此之上接入不同的稀疏化算法,就像KV連接器和PC一樣。
根據(jù)GitCode官方信息,UCM的核心原理是持久化LLM的KVCache,并通過多種檢索機制替代冗余計算。UCM支持前綴緩存(prefix cache,PC),同時提供了多種無需訓(xùn)練的稀疏注意力檢索方法,在處理極長序列推理任務(wù)時達到更高性能;此外,UCM基于存算分離架構(gòu)提供了PD分離方案,使得異構(gòu)計算資源的管理更簡單靈活。
結(jié)語:應(yīng)對性能挑戰(zhàn),緩解資源瓶頸,UCM開源或加速AI推理落地
隨著邊緣和端側(cè)AI的快速發(fā)展,AI推理需求快速增長,在Agentic AI時代,AI推理任務(wù)愈發(fā)復(fù)雜,對算力、內(nèi)存訪問效率等方面都提出了更多挑戰(zhàn)。
UCM的開源,可以進一步緩解AI推理復(fù)雜任務(wù)產(chǎn)生的資源瓶頸和性能挑戰(zhàn),給行業(yè)提供新的技術(shù)路徑,加速優(yōu)秀商用AI推理方案的落地。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.