網易首頁 > 網易號 > 正文申請入駐

大模型優秀大腦齊聚硬核開源聚會，SGLang社區舉辦國內首次Meetup

2025-10-28 14:51:28　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：冷貓

遠在大洋彼岸的 Pytorch Conference 2025 全球開發者峰會已經走向尾聲。

作為全世界最具影響力的深度學習開發者社區的重大活動之一，Pytorch Conference 最近收獲了相當的關注度，展現了相當的社區活力。

SGLang 同樣參加了Pytorch Conference 2025，核心成員Yineng Zhang 在大會做了相關分享。

而在同期的10月25日，SGLang 聯合美團，亞馬遜云科技在北京開啟了官方社區舉辦的國內首場Meetup見面會

向讀者們簡單介紹下 SGLang。它起源于 RadixAttention，是由非營利組織LMSYS孵化的開源高性能的大語言模型和視覺語言模型推理引擎。它在各種環境中提供低延遲和高吞吐量的推理，從單個 GPU 到大型分布式集群。

SGLang 的核心特性包括：

快速后端 Runtime：提供高效服務，支持 RadixAttention 前綴緩存、零開銷 CPU 調度器、預填充 - 解碼解耦、推測性解碼、連續批處理、分頁注意力、張量 / 流水線 / 專家 / 數據并行、結構化輸出、分塊預填充、量化和多 LoRA 批處理。
廣泛模型支持：支持多種生成模型（Llama、Qwen、DeepSeek、Kimi、GLM、GPT、Gemma、Mistral 等）、嵌入模型（e5-mistral、gte、mcdse）和獎勵模型（Skywork），并易于擴展以集成新模型。兼容大多數 Hugging Face 模型和 OpenAI API。
廣泛的硬件支持：可在 NVIDIA GPU、AMD GPU、Intel Xeon CPU、Google TPUs、華為昇騰 NPU 等硬件上運行。
靈活的前端語言：為 LLM 應用程序提供直觀的編程界面，支持鏈式生成調用、高級提示、控制流、多模態輸入、并行處理和外部交互。
活躍的社區：SGLang 是開源項目，并得到充滿活力的社區支持，在行業內得到廣泛采用，全球范圍內為超過 30 萬塊 GPU 提供支持。

這次見面會雖說是首次舉行，但在會場中熙熙攘攘著 SGLang 的社區貢獻者，開發者和學者，不乏來自各個知名公司、學校或組織的成員，進行激烈的思維碰撞，充分顯現出 SGLang 在國內旺盛的社區活力和發展潛能。

四小時的 Meetup 時間有些緊張，十余位大模型領域的大咖和核心開發者們分享了各自領域的見解，在 SGLang 社區的最新貢獻，未來的發展方向，以及采用 SGLang 在不同業務中的應用場景。

可以說是一場高密度的硬核的開源社區的思想碰撞。

無限進步的社區

見面會的開場由硅基流動 CEO 袁進輝進行歡迎致辭。

袁進輝老師真摯的分享了他自己的職業經歷，回顧 AI Infra 工程師的職業發展，并且展望未來的 AI 時代機遇，AI infra 大模型推理仍然有很好的機會。

袁進輝老師提到，做算法和做 Infra 有顯著的不同：

Algorithm 更依賴創造能力，更依賴靈感，從無到有；而 Infra 更依賴歸納和抽象能力。
Infra 對延遲滿足感要求高，聰明人不一定干得了，更需要團隊協作。
Infra 有時間累積效應，知道 ldea 也不一定能復現，而 Algorithm 不易形成商業壁壘，窗戶紙一旦捅破，天下皆知。

袁進輝老師結合自己的創業經歷和深刻的思考，對于創業者，從業者的未來方向產生一些啟發。

本次 Meetup 活動的上半場主要集中在 SGLang 推理架構的核心開發者的技術分享上。

SGLang 核心開發者尹良升，介紹了近期 SGLang 的技術進化的里程碑和未來路線規劃。

尹良升老師著眼于架構技術進步，深度講解了 KV Cache 分層緩存，Piecewise CUDA Graph，Spec Decoding 的重疊調度等 SGLang 的最新技術進展，能夠實現不同程度的效率和兼容性優化。

在 Roadmap 部分，尹老師主要介紹了對廣泛企業的支持，對各類軟硬件的拓展兼容和穩定性。

隨后，清華大學副教授章明星，以 Mooncake/KTransformers 與 SGLang 近期的合作進展和 2025H2 路標為主題進行了分享。

章明星老師詳細講解了集「快速傳輸」、「大量存儲」和「易用」結合的高性能分布式 KV Cache 存儲解決方案 Mooncake 與 SGLang 的 PD 分離技術相結合的工作，取得了良好的性能效果。

章老師介紹，與 SGLang 相整合的 HiCache 技術，通過多層次緩存管理（GPU、CPU、外部存儲）與層頁混合內存布局，結合重疊預取策略，大幅提升了 SGLang 在多 GPU 場景下的內存利用率與推理吞吐性能。

SGL 與 LLama-Factory 正在通過集成 KTransformers 實現從 CPU/GPU 混合推理到 LoRA 微調的全流程開源生態擴展，使大模型（如 DeepSeek、Kimi K2）在本地和多 GPU 環境下高效運行與微調成為可能。

該部分工作與趨境科技合作進行。

同時，在未來 Mooncake，KTransformers 也會有更多開源整合項目。

亞馬遜云科技 EC2 產品解決方案架構師肖萍，以 SGLang 在純 CPU 環境下的性能與優化研究為題做第三場分享。

肖萍老師講道，SGLang 在 CPU 上運行適用于小型語言模型服務、傳統機器學習任務，以及低成本的 MoE 模型推理；結合了 SGLang 在 CPU 環境下運行的挑戰，通過優化調度、緩存復用、量化策略和底層指令級優化來提升性能、降低成本的應對方法。

除此以外，還特別提及了在單個模型，例如 DeepSeek 上的 CPU 優化方法。

上半場的最后，SGLang 量化負責人張鵬，介紹了 SGLang 的量化方案和未來路線。

張鵬老師詳細講解了 SGLang 的量化方案、量化模塊和量化粒度相關的技術細節，介紹了 SGLang 目前支持的廣泛量化類型，保證量化精度的三類技術方法。

同時，張鵬老師介紹了 SGLang 量化部分近期的工作：實現了 FP4 量化支持，W4AFP8 達成了實現；DeepSeekR1 和 V3 更容易單機部署；多硬件支持，并進行了代碼重構工作。

未來的量化路線圖聚焦于擴展應用范圍、提升靈活性，并引入新型數據格式以進一步優化模型性能與效率。

受限于本文篇幅，我們不對技術細節進行過多的介紹，感興趣的讀者請參閱 SGL Project 相關頁面：

https://github.com/sgl-project
https://lmsys.org/blog/

廣泛應用實踐

見面會的第二部分主要集中在應用和實踐方面，展現了 SGLang 在不同場景下的應用現狀。

下半場的第一個分享來自百度搜索架構部負責人百度搜索楊文博，主題是 Ernie 4.5 適配與百度搜索的 SGLang 實踐。

Ernie 4.5 即文心 4.5 系列開源模型，楊文博老師詳細介紹了百度內部對于 Ernie 4.5 模型大規模部署的系統優化方案的實踐：在架構、調度、計算和硬件兼容性上全面提升，實現高性能、跨平臺的大規模推理部署。

此外，楊文博老師提到，在百度搜索場景中采用 SGLang 開始于 DeepSeek V3 的分布式推理復現，隨后廣泛應用于 LLM 推理、蒸餾和 RL 訓練。搜索架構團隊對 SGLang 做了一些例如特定模型優化、小卡優化和調度優化的技術工作。

關于文心 4.5 模型在 SGLang 的適配細節，請參閱：

github.com/sgl-project/sglang/pull/7657

在搜索場景上，騰訊專家工程師曹皓緊接著分享了 SGLang 在微信搜一搜的應用實踐。

在微信搜一搜業務體系中，LLM 的應用包括：深度思考，快速回答，視頻號前鏈，深度研究四個主要場景。

曹皓老師提到，搜索業務中的目標是在有限 GPU 下實現高吞吐量與低延遲推理，確保搜索與問答類場景具備「首字快、生成流暢」的用戶體驗，關注首字速度 TTFT 和生成速度 TPOT 的指標。而 SGL 昂為微信搜一搜提供了高性能的 LLM 推理支持。

曹皓老師詳細的講解了針對生成流暢度，降低 PD 分離的影響；長輸入場景下 TTFT 的優化；長耗時流量負載均衡以及 PD 分離規模化部署的相關技術細節和實現流程。

在行業應用場景中，大模型在 NPU 上的適配運行是非常重要的一環。華為大模型優化算法專家秦正達分享了 DeepSeek V3.2 在 NPU 上的適配和優化實踐。

在 DeepSeek V3.2 的部署方案上，通過對比 MHA + 稀疏掩碼；MHA + 稀疏注意力以及 MQA + 稀疏注意力優化，最終選擇了 MQA + 稀疏注意力的部署方案，實現了計算量、顯存訪問與執行效率的平衡，在長序列推理中顯著提升性能與資源利用率。

同時，秦正達老師針對 PreFill 和 Decode 的并行策略進行分析，講解了在 NPU 上的融合算子和算子優化的相關技術細節。未來規劃聚焦在三大方向：低比特量化、KV 緩存下沉與 MegaKernel 并行優化，目標是通過軟硬件協同進一步提升長序列推理性能與系統吞吐效率。

相關開源鏈接，請參閱：

CANN 開源倉庫：https://gitcode.com/cann
CANN-Recipes：https://gitcode.com/cann/cann-recipes-infer

SGL 即將在 Omni-Infer v0.6.0 版本中正式支持，通過 NPU 硬件親和與極致性能優化，實現高效推理框架：

https://gitee.com/omni-ai/omniinfer

隨后，Slime Project Leader 朱子霖，以及螞蟻 AQ 團隊成員李冀，有關 slime 的開發方向和應用做了分享。

朱子霖老師介紹了 slime 從 0 到 1 的發展，經歷了從靈活高效的訓練架構設計，到構建公司與開源社區共建共贏的訓練生態，實現了技術與社區的雙向循環成長。

slime 的目標是構建符合初心的，世界最好的后訓練框架。站在 Pytorch 巨人的肩膀上，Pytorch 是深度學習框架，在 GPU 上跑得快，還能反向，那么 slime 的目標就是：是 RL Scaling 框架，能訓的快并且支持各種數據生成邏輯。

李冀老師介紹了 slime 落地 AQ 醫療的應用范式，訓練流程，以及多智能體訓練的性能優勢。

slime 在 AQ 醫療場景中實現了多輪交互與多智能體協同訓練的強化學習系統，使醫生與患者模型通過對話共同提升表現，實現智能醫療問答的真實落地。

slime和AQ相關開源鏈接，請參閱：

https://github.com/THUDM/slime
https://github.com/AQ-MedAI/MrlX

最后登場的是本次 Meetup 活動主理人，SGLang 核心開發者王超，分享了 Specforge 框架的最新進展。

Specforge 是由 SGLang 團隊推出的開源投機采樣模型訓練框架，旨在加速大語言模型推理，目前已應用于美團、英偉達、Google、螞蟻等企業的大模型優化。Specforge 和 SGL 完全結合，開箱即用。Specforge 的核心特性，包括提供了對 TTT 的原生支持，支持 Eagle 3；在線與離線的訓練管線等等。

王超老師介紹了 Specforge 的近期亮點，包括達到了 SOTA GPT-OSS 性能；采用 Flex Attention 實現了高達 10-20 倍顯存節省；支持 VLM，成為業界第一個對 VLM 做投機采樣的工作，以及對 LoRA 的支持。

在未來，Specforge 開源計劃將聚焦于訓練加速、Eagle3 模型生態擴展，以及更先進的推測解碼算法的研發，持續提升模型推理效率與生態兼容性。

總結

熱情的社區成員，令人興奮的工作，引人期待的 Roadmap，廣泛的應用，正是一個良性循環的，高活力的開源社區應有的模樣。

這是國內第一次 SGLang 社區的 Meetup 活動，卻已足夠令人感到著迷。希望未來，社區能夠更加枝繁葉茂。

SGL 打滿！

https://github.com/sgl-project/sglang

https://x.com/PyTorch/status/1981777035207868492

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.