![]()
隨著大語言模型的快速進步,為了適應越來越多樣的工作場景,模型越來越多在指定場景進行針對性訓練,例如代碼、數學計算、視覺理解、邊緣計算等。而在面對復雜任務與特定場景時,通過多智能體進行探索、決策、信息交換,可以實現相比單智能體更好的綜合表現。
在多智能體系統中,現有的智能體多以 Text to Text(T2T)方式進行交流,即通過生成交流文本進行智能體之間的信息傳遞,而這種方式則會帶來信息丟失(多維語義被壓縮到一維文字)、語義模糊[3][4]、巨大延遲(逐個 token 生成)三大問題。基于此來自清華大學、無問芯穹、香港中文大學、上海人工智能實驗室和上海交通大學的研究團隊在論文中創新提出了 Cache to Cache(C2C)方式的信息傳遞,將模型的 KV-Cache 作為傳播媒介,實現了直接的「腦對腦」交流,相比 T2T 的對話交流實現了 3%-5% 的正確率提升以及平均兩倍的速度提升,為多智能體系統提供了一種全新的通信范式。
論文的核心貢獻在于:
- 驗證了超越文本的模型間通信的可行性
- 提出了以 KV-Cache 作為媒介進行通信的方案 - C2C
- 為多智能體通信提供了新的技術基礎
![]()
a) T2T 通過顯式文本生成傳遞信息 b) C2C 直接將不同模型的 KV-Cache 進行投影與融合
本工作現已開源,歡迎交流討論。
![]()
- 代碼鏈接:https://github.com/thu-nics/C2C
- 主頁鏈接:https://github.com/thu-nics
- 論文鏈接: https://arxiv.org/pdf/2510.03215
背景:現有文本通信的局限性
在面對復雜任務與特定場景時,多智能體系統能夠展現出超越單智能體的顯著優勢。然而,現有的 Text to Text(T2T)極大地限制了模型間的信息交流,尤其是在傳遞具有豐富語義的上下文時,產生了以下三大問題:
1.信息丟失:作為低帶寬的傳播媒介,在將信息壓縮為一維文本序列并輸出時,很容易造成高維語義降維時的信息丟失。
2.語義模糊:自然語言本身包含的模糊表達,盡管 MCP 等智能體交流協議希望可以標準化文本信息 [3][4],但是固定的模版依舊難以滿足靈活、開放的協作場景。
3.巨大延遲:T2T 傳遞采取逐個 token 輸出,極大地限制了通信速度。
![]()
核心洞見:KV-Cache 的獨特優勢
KV-Cache 天然包含模型對話過程中的多維語義信息,無需額外二次處理。通過預實驗,我們發現:
1. 在相同文本長度下,優化后的 KV-Cache 能夠顯著提升模型的準確率;
2. 不同模型之間的 KV-Cache 可以進行相互轉換與傳遞,具備良好的通用性;
3. 不同模型針對相同上下文會生成各自獨特的 KV-Cache 表示,體現了模型間能力的互補性。
此外,KV-Cache 在并行處理方面具有天然優勢,能夠精準彌補現有 T2T(Text-to-Text)方式的不足。例如,KV-Cache 可通過投影對不同詞元實現完全并行的信息交流,有效避免低效的一維文本輸出流程。
基于上述優勢,我們團隊探索了以KV-Cache為媒介的模型通信方式。實驗表明,KV-Cache 不僅拓展了模型間交流的表達空間,還顯著提升了效率和可擴展性。
![]()
源模型、目標模型以及轉換后KV-Cache的t-SNE圖
![]()
KV-Cache 優化實驗
深入解析:C2C 直接語義通信的實現路徑
1. Sharer 與 Receiver
團隊將提供額外上下文理解的模型定義為 Sharer(分享者),而負責接收完整上下文并結合這些理解生成回復的模型定義為 Receiver(接收者)。
![]()
2. 核心機制:C2C-Fuser
C2C 的核心在于 KV-Cache 的融合。為此,我們設計了融合器 F 以及層映射策略 G。
- 在 prefill 階段,第 n 層的融合器 F (n) 會用 Receiver 的第 n 層 KV 和 Sharer 的第 G (n) 層 KV 進行融合,生成新的 KV 表示。
- 在 解碼階段,模型則利用融合后的 KV-Cache 和當前前綴,進行自回歸生成,實現信息的有效利用。
![]()
3. 融合器設計:殘差式信息注入
為防止融合過程破壞 Receiver 原有語義,Fuser 采用殘差融合結構,分為投影層、動態權重層和可學習門控三部分。
- 投影層:將兩側 KV 在頭 / 通道維度拼接,通過線性投影與特征融合映射到統一表征空間;實現初步的信息整合;
- 動態權重層:用輸入感知的 head-modulation 對投影后的各注意力頭 / 通道做自適應加權;促使模型可以判斷:在何時應當保留 Receiver 的輸入,何時應當增強 Sharer 的引導;
- 可學習門控:每層有可訓練門控,使用帶溫度退火的 Gumbel-sigmoid,從開始訓練時的可微加權平滑過渡到推理時的 0/1 決策。最終以殘差形式與 Receiver 原 KV 相加,保留原始表征;保證了訓練的有效性以及 Receiver 輸出的穩定性。
這樣可以自適應地將 Sharer 的信息以殘差方式注入 Receiver,實現更有效的信息整合與傳遞。
4. 模型對齊:跨模型、跨層級的映射
為保證不同模型(系列、尺寸)之間 KV 表示的兼容性,C2C 引入模型對齊機制。
- Token 對齊:將 Receiver 的每個 token 解碼為字符串,再用 Sharer 的分詞器重新編碼;遇到一對多映射時,選取覆蓋字符串最長的 Sharer token 以最大限度保障信息精準傳遞。
- Layer 對齊(也即層映射策略):采用「末端對齊」策略 —— 先對齊兩模型的最頂層,然后按逆序逐層對齊直到較淺模型的第一層,優先保障深層語義的融合傳輸。
5. 訓練框架:專注于 C2C Fuser 模塊
在訓練過程中,團隊凍結 Sharer 和 Receiver 的參數,僅訓練 C2C 融合器模塊,采用類似 SFT 的 next token prediction 損失。訓練流程包括前向傳播、KV-Cache 融合,以及最終的監督學習與傳播,確保 C2C 能穩定高效地實現模型間的信息傳遞。
結果與分析:C2C 的性能與效率優勢
訓練數據:OpenHermes2.5 [14]
為確保泛化能力,團隊在通用微調語料庫 OpenHermes2.5 [14] 中選取前 50 萬個樣本來訓練 C2C Fusers。
模型組合:
涵蓋不同系列(Qwen2.5 [5]、Qwen3 [6]、Llama3.2 [7]、Gemma3 [8] )、不同規模(0.6B~14B)、不同專業領域(通用、代碼、數學)以及不同訓練階段(預訓練、指令微調)模型。例如,用 Qwen2.5-Math 作為 Sharer,Qwen3-0.6B 作為 Receiver,測試學科知識傳遞。
基線方法:
- T2T:Sharer 生成解析文本,Receiver 接收解析文本以及原問題后進行回答
- query-level routing:根據問題難度動態選擇 Sharer 或 Receiver 回答
- 單模型:Sharer 和 Receiver 分別單獨回答
評測基準:
- OpenBookQA [9]:考察模型對科學常識和開放性知識推理能力
- MMLU-Redux [10]:考察多領域、多任務的專業知識理解與綜合能力
- ARC-C [11]:考察復雜科學推理任務
- C-Eval [12]:考察模型在中文環境下的多學科知識與應用能力
整體表現
![]()
在主要評測基準上的測試結果,使用Qwen-0.6B作為Receiver
如表所示,C2C 在不同設置和基準上持續提升了 Receiver 的性能。
準確性提升:顯著超越個體與文本通信:
- 針對三種不同的 Sharer,分別觀察到 C2C 相比單個 Sharer 平均準確率提升 11.00%、9.64% 和 11.88%。
- 與 T2T 相比,C2C 的平均準確率分別額外提升了 5.36%、4.15% 和 3.06%。
效率增益:延遲大幅降低:
由于省去了中間文本消息的生成,相比 T2T,C2C 在推理時間上分別實現了約 3.46×、1.51× 和 14.41× 的加速。相較之下,query-level routing 更側重效率,但其準確率一般不超過兩個原始模型中的較好者。
值得注意的是,當使用 Qwen3-4B Base 作為 Sharer 時,該模型生成的文本有時會忽視指令并超出預期長度,導致文本到文本通信時間顯著增長,而 C2C 能繞過該問題。這一設置展示了一個有趣的用例:即使是弱的 SFT 模型,也能幫助強大的預訓練基礎模型更好地遵循指令。
泛化實驗
分別在規模擴展、序列長度擴展與不同模型組合三個層面上進行泛化實驗,結果說明 C2C 在三個層面上均能有效泛化,具體實驗結果詳見正文部分。
消融實驗
![]()
Single 表示在沒有 Sharer 的情況下對 Receiver 進行標準的完整微調;Identical 表示 Sharer 與 Receiver 均為 Qwen3-0.6B 的 C2C 配置。
實驗結果說明 C2C 的改進并非單純來源于增大的可訓練參數量或對訓練集的過擬合,而是來自異構 Sharer 提供的互補性上下文理解。即便是 Identical 相較于 Single 也有提升,表明 Cache 級別的自我通信(cache-level self-communication)能提供有益的輔助表征,這與在隱空間推理和循環 Transformer 中觀察到的效應一致 [15][16]。
未來展望
Cache to Cache 及其思想的應用前景十分廣泛,可能的場景包括:
1. 多智能體系統中實現協作效率與效果的大幅提高。例如在一些多智能體系統的應用中,可以進一步提升智能體系統響應與處理速度,適配當前快節奏、多需求的 AI 訓練浪潮。
2. 多模態的便捷融合。借助 C2C 可以對齊并融合語言模型、視覺 - 語言模型(VLM)及視覺 - 語言 - 動作(VLA)策略的緩存,使視覺與語言上下文共同驅動更精確的理解與決策執行。
3. 與推理加速方法整合。將 C2C 用于增強推測解碼(speculative decoding)、 token 級路由等方法中小模型的表現,進一步降低延遲與推理成本。
4. 隱私感知的云 — 邊協作。云端模型將經挑選的 KV-Cache 段傳輸到邊端模型,以在不暴露原始文本的前提下提升邊端能力,減少帶寬并降低數據泄露風險。
5. 高維語義空間的協作與推理。與隱空間推理結合后可以實現完全在高維語義空間的模型推理與溝通協作,有望進一步提升系統工作效率,減少計算開銷。
本文提出的 Cache-to-Cache(C2C)范式,成功實現了大模型間高效、通用的直接語義通信。其在性能、效率與泛化性上的優異表現也讓我們期待,在智能體時代,C2C 有潛力成為構建新一代多智能體系統的關鍵使能技術之一,推動其交流方式從低效的文本中轉邁向高效的「思想同步」。
參考文獻
[1]: Taicheng Guo, Xiuying Chen, Yaqi Wang, Ruidi Chang, Shichao Pei, Nitesh V Chawla, Olaf Wiest, and Xiangliang Zhang. Large language model based multi-agents: A survey of progress and challenges. arXiv preprint arXiv:2402.01680, 2024.
[2]: Khanh-Tung Tran, Dung Dao, Minh-Duong Nguyen, Quoc-Viet Pham, Barry O’Sullivan, and Hoang D Nguyen. Multi-agent collaboration mechanisms: A survey of llms. arXiv preprint arXiv:2501.06322, 2025
[3]: Anthropic. Introducing the model context protocol. Online; Nov. 25, 2024, 2024. URL https: //www.anthropic.com/news/model-context-protocol. Accessed: 2025-09-08.
[4]: Rao Surapaneni, Miku Jha, Michael Vakoc, and Todd Segal. Announcing the agent2agent protocol (a2a). Google Developers Blog, April 2025. URL https://developers.googleblog. com/en/a2a-a-new-era-of-agent-interoperability/. Accessed: 2025-09-08.
[5]: An Yang, Beichen Zhang, Binyuan Hui, Bofei Gao, Bowen Yu, Chengpeng Li, Dayiheng Liu, Jian hong Tu, Jingren Zhou, Junyang Lin, et al. Qwen2. 5-math technical report: Toward mathematical expert model via self-improvement. arXiv preprint arXiv:2409.12122, 2024a.
[6]: An Yang, Anfeng Li, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Gao, Chengen Huang, Chenxu Lv, et al. Qwen3 technical report. arXiv preprint arXiv:2505.09388, 2025a.
[7]: Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Amy Yang, Angela Fan, et al. The llama 3 herd of models. arXiv e-prints, pp. arXiv–2407, 2024.
[8]: Gemma Team, Aishwarya Kamath, Johan Ferret, Shreya Pathak, Nino Vieillard, Ramona Merhej, Sarah Perrin, Tatiana Matejovicova, Alexandre Ram′ e, Morgane Rivi` ere, et al. Gemma 3 technical report. arXiv preprint arXiv:2503.19786, 2025.
[9]: Todor Mihaylov, Peter Clark, Tushar Khot, and Ashish Sabharwal. Can a suit of armor conduct elec tricity? a new dataset for open book question answering. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pp. 2381–2391, 2018.
[10]: Aryo Pradipta Gema, Joshua Ong Jun Leang, Giwon Hong, Alessio Devoto, Alberto Carlo Maria Mancino, Rohit Saxena, Xuanli He, Yu Zhao, Xiaotang Du, Mohammad Reza Ghasemi Madani, et al. Are we done with mmlu? InProceedings of the 2025 Conference of the Nations of the Amer icas Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers), pp. 5069–5096, 2025.
[11]: Peter Clark, Isaac Cowhey, Oren Etzioni, Tushar Khot, Ashish Sabharwal, Carissa Schoenick, and Oyvind Tafjord. Think you have solved question answering? try arc, the ai2 reasoning challenge. arXiv preprint arXiv:1803.05457, 2018.
[12]: Yuzhen Huang, Yuzhuo Bai, Zhihao Zhu, Junlei Zhang, Jinghan Zhang, Tangjun Su, Junteng Liu, Chuancheng Lv, Yikai Zhang, Yao Fu, et al. C-eval: A multi-level multi-discipline chinese eval uation suite for foundation models. Advances in Neural Information Processing Systems, 36: 62991–63010, 2023.
[13]: Isaac Ong, Amjad Almahairi, Vincent Wu, Wei-Lin Chiang, Tianhao Wu, Joseph E Gonzalez, MWaleed Kadous, and Ion Stoica. Routellm: Learning to route llms with preference data. arXiv preprint arXiv:2406.18665, 2024.
[14]: Teknium. Openhermes 2.5: An open dataset of synthetic data for generalist llm assistants, 2023. URLhttps://huggingface.co/datasets/teknium/OpenHermes-2.5.
[15]: Boyi Zeng, Shixiang Song, Siyuan Huang, Yixuan Wang, He Li, Ziwei He, Xinbing Wang, Zhiyu Li, and Zhouhan Lin. Pretraining language models to ponder in continuous space. arXiv preprint arXiv:2505.20674, 2025.
[16]: Nikunj Saunshi, Nishanth Dikkala, Zhiyuan Li, Sanjiv Kumar, and Sashank J Reddi. Reasoning with latent thoughts: On the power of looped transformers. arXiv preprint arXiv:2502.17416, 2025.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.