機器之心報道
編輯:冷貓
遠在大洋彼岸的 Pytorch Conference 2025 全球開發者峰會已經走向尾聲。
作為全世界最具影響力的深度學習開發者社區的重大活動之一,Pytorch Conference 最近收獲了相當的關注度,展現了相當的社區活力。
![]()
SGLang 同樣參加了Pytorch Conference 2025,核心成員Yineng Zhang 在大會做了相關分享。
而在同期的10月25日,SGLang 聯合美團,亞馬遜云科技在北京開啟了官方社區舉辦的國內首場Meetup見面會
![]()
![]()
向讀者們簡單介紹下 SGLang。它起源于 RadixAttention,是由非營利組織LMSYS孵化的開源高性能的大語言模型和視覺語言模型推理引擎。它在各種環境中提供低延遲和高吞吐量的推理,從單個 GPU 到大型分布式集群。
SGLang 的核心特性包括:
- 快速后端 Runtime:提供高效服務,支持 RadixAttention 前綴緩存、零開銷 CPU 調度器、預填充 - 解碼解耦、推測性解碼、連續批處理、分頁注意力、張量 / 流水線 / 專家 / 數據并行、結構化輸出、分塊預填充、量化和多 LoRA 批處理。
- 廣泛模型支持:支持多種生成模型(Llama、Qwen、DeepSeek、Kimi、GLM、GPT、Gemma、Mistral 等)、嵌入模型(e5-mistral、gte、mcdse)和獎勵模型(Skywork),并易于擴展以集成新模型。兼容大多數 Hugging Face 模型和 OpenAI API。
- 廣泛的硬件支持:可在 NVIDIA GPU、AMD GPU、Intel Xeon CPU、Google TPUs、華為昇騰 NPU 等硬件上運行。
- 靈活的前端語言:為 LLM 應用程序提供直觀的編程界面,支持鏈式生成調用、高級提示、控制流、多模態輸入、并行處理和外部交互。
- 活躍的社區:SGLang 是開源項目,并得到充滿活力的社區支持,在行業內得到廣泛采用,全球范圍內為超過 30 萬塊 GPU 提供支持。
這次見面會雖說是首次舉行,但在會場中熙熙攘攘著 SGLang 的社區貢獻者,開發者和學者,不乏來自各個知名公司、學校或組織的成員,進行激烈的思維碰撞,充分顯現出 SGLang 在國內旺盛的社區活力和發展潛能。
![]()
四小時的 Meetup 時間有些緊張,十余位大模型領域的大咖和核心開發者們分享了各自領域的見解,在 SGLang 社區的最新貢獻,未來的發展方向,以及采用 SGLang 在不同業務中的應用場景。
可以說是一場高密度的硬核的開源社區的思想碰撞。
無限進步的社區
見面會的開場由硅基流動 CEO 袁進輝進行歡迎致辭。
袁進輝老師真摯的分享了他自己的職業經歷,回顧 AI Infra 工程師的職業發展,并且展望未來的 AI 時代機遇,AI infra 大模型推理仍然有很好的機會。
![]()
袁進輝老師提到,做算法和做 Infra 有顯著的不同:
- Algorithm 更依賴創造能力,更依賴靈感,從無到有;而 Infra 更依賴歸納和抽象能力。
- Infra 對延遲滿足感要求高,聰明人不一定干得了,更需要團隊協作。
- Infra 有時間累積效應,知道 ldea 也不一定能復現,而 Algorithm 不易形成商業壁壘,窗戶紙一旦捅破,天下皆知。
袁進輝老師結合自己的創業經歷和深刻的思考,對于創業者,從業者的未來方向產生一些啟發。
本次 Meetup 活動的上半場主要集中在 SGLang 推理架構的核心開發者的技術分享上。
SGLang 核心開發者尹良升,介紹了近期 SGLang 的技術進化的里程碑和未來路線規劃。
![]()
尹良升老師著眼于架構技術進步,深度講解了 KV Cache 分層緩存,Piecewise CUDA Graph,Spec Decoding 的重疊調度等 SGLang 的最新技術進展,能夠實現不同程度的效率和兼容性優化。
在 Roadmap 部分,尹老師主要介紹了對廣泛企業的支持,對各類軟硬件的拓展兼容和穩定性。
隨后,清華大學副教授章明星,以 Mooncake/KTransformers 與 SGLang 近期的合作進展和 2025H2 路標為主題進行了分享。
![]()
章明星老師詳細講解了集「快速傳輸」、「大量存儲」和「易用」結合的高性能分布式 KV Cache 存儲解決方案 Mooncake 與 SGLang 的 PD 分離技術相結合的工作,取得了良好的性能效果。
章老師介紹,與 SGLang 相整合的 HiCache 技術,通過多層次緩存管理(GPU、CPU、外部存儲)與層頁混合內存布局,結合重疊預取策略,大幅提升了 SGLang 在多 GPU 場景下的內存利用率與推理吞吐性能。
SGL 與 LLama-Factory 正在通過集成 KTransformers 實現從 CPU/GPU 混合推理 到 LoRA 微調 的全流程開源生態擴展,使大模型(如 DeepSeek、Kimi K2)在本地和多 GPU 環境下高效運行與微調成為可能。
該部分工作與趨境科技合作進行。
同時,在未來 Mooncake,KTransformers 也會有更多開源整合項目。
亞馬遜云科技 EC2 產品解決方案架構師肖萍,以 SGLang 在純 CPU 環境下的性能與優化研究為題做第三場分享。
![]()
肖萍老師講道,SGLang 在 CPU 上運行適用于小型語言模型服務、傳統機器學習任務,以及低成本的 MoE 模型推理;結合了 SGLang 在 CPU 環境下運行的挑戰,通過優化調度、緩存復用、量化策略和底層指令級優化來提升性能、降低成本的應對方法。
除此以外,還特別提及了在單個模型,例如 DeepSeek 上的 CPU 優化方法。
上半場的最后,SGLang 量化負責人張鵬,介紹了 SGLang 的量化方案和未來路線。
![]()
張鵬老師詳細講解了 SGLang 的量化方案、量化模塊和量化粒度相關的技術細節,介紹了 SGLang 目前支持的廣泛量化類型,保證量化精度的三類技術方法。
同時,張鵬老師介紹了 SGLang 量化部分近期的工作:實現了 FP4 量化支持,W4AFP8 達成了實現;DeepSeekR1 和 V3 更容易單機部署;多硬件支持,并進行了代碼重構工作。
未來的量化路線圖聚焦于擴展應用范圍、提升靈活性,并引入新型數據格式以進一步優化模型性能與效率。
受限于本文篇幅,我們不對技術細節進行過多的介紹,感興趣的讀者請參閱 SGL Project 相關頁面:
- https://github.com/sgl-project
- https://lmsys.org/blog/
廣泛應用實踐
見面會的第二部分主要集中在應用和實踐方面,展現了 SGLang 在不同場景下的應用現狀。
下半場的第一個分享來自百度搜索架構部負責人百度搜索楊文博,主題是 Ernie 4.5 適配與百度搜索的 SGLang 實踐。
![]()
Ernie 4.5 即文心 4.5 系列開源模型,楊文博老師詳細介紹了百度內部對于 Ernie 4.5 模型大規模部署的系統優化方案的實踐:在架構、調度、計算和硬件兼容性上全面提升,實現高性能、跨平臺的大規模推理部署。
此外,楊文博老師提到,在百度搜索場景中采用 SGLang 開始于 DeepSeek V3 的分布式推理復現,隨后廣泛應用于 LLM 推理、蒸餾和 RL 訓練。搜索架構團隊對 SGLang 做了一些例如特定模型優化、小卡優化和調度優化的技術工作。
關于文心 4.5 模型在 SGLang 的適配細節,請參閱:
- github.com/sgl-project/sglang/pull/7657
在搜索場景上,騰訊專家工程師曹皓緊接著分享了 SGLang 在微信搜一搜的應用實踐。
![]()
在微信搜一搜業務體系中,LLM 的應用包括:深度思考,快速回答,視頻號前鏈,深度研究四個主要場景。
曹皓老師提到,搜索業務中的目標是在有限 GPU 下實現高吞吐量與低延遲推理,確保搜索與問答類場景具備「首字快、生成流暢」的用戶體驗,關注首字速度 TTFT 和生成速度 TPOT 的指標。而 SGL 昂為微信搜一搜提供了高性能的 LLM 推理支持。
曹皓老師詳細的講解了針對生成流暢度,降低 PD 分離的影響;長輸入場景下 TTFT 的優化;長耗時流量負載均衡以及 PD 分離規模化部署的相關技術細節和實現流程。
在行業應用場景中,大模型在 NPU 上的適配運行是非常重要的一環。華為大模型優化算法專家秦正達分享了 DeepSeek V3.2 在 NPU 上的適配和優化實踐。
![]()
在 DeepSeek V3.2 的部署方案上,通過對比 MHA + 稀疏掩碼;MHA + 稀疏注意力以及 MQA + 稀疏注意力優化,最終選擇了 MQA + 稀疏注意力的部署方案,實現了計算量、顯存訪問與執行效率的平衡,在長序列推理中顯著提升性能與資源利用率。
同時,秦正達老師針對 PreFill 和 Decode 的并行策略進行分析,講解了在 NPU 上的融合算子和算子優化的相關技術細節。未來規劃聚焦在三大方向:低比特量化、KV 緩存下沉與 MegaKernel 并行優化,目標是通過軟硬件協同進一步提升長序列推理性能與系統吞吐效率。
相關開源鏈接,請參閱:
- CANN 開源倉庫:https://gitcode.com/cann
- CANN-Recipes:https://gitcode.com/cann/cann-recipes-infer
SGL 即將在 Omni-Infer v0.6.0 版本中正式支持,通過 NPU 硬件親和與極致性能優化,實現高效推理框架:
- https://gitee.com/omni-ai/omniinfer
隨后,Slime Project Leader 朱子霖,以及螞蟻 AQ 團隊成員李冀,有關 slime 的開發方向和應用做了分享。
![]()
朱子霖老師介紹了 slime 從 0 到 1 的發展,經歷了從靈活高效的訓練架構設計,到構建公司與開源社區共建共贏的訓練生態,實現了技術與社區的雙向循環成長。
slime 的目標是構建符合初心的,世界最好的后訓練框架。站在 Pytorch 巨人的肩膀上,Pytorch 是深度學習框架,在 GPU 上跑得快,還能反向,那么 slime 的目標就是:是 RL Scaling 框架,能訓的快并且支持各種數據生成邏輯。
![]()
李冀老師介紹了 slime 落地 AQ 醫療的應用范式,訓練流程,以及多智能體訓練的性能優勢。
slime 在 AQ 醫療場景中實現了多輪交互與多智能體協同訓練的強化學習系統,使醫生與患者模型通過對話共同提升表現,實現智能醫療問答的真實落地。
slime和AQ相關開源鏈接,請參閱:
- https://github.com/THUDM/slime
- https://github.com/AQ-MedAI/MrlX
最后登場的是本次 Meetup 活動主理人,SGLang 核心開發者王超,分享了 Specforge 框架的最新進展。
![]()
Specforge 是由 SGLang 團隊推出的開源投機采樣模型訓練框架,旨在加速大語言模型推理,目前已應用于美團、英偉達、Google、螞蟻等企業的大模型優化。Specforge 和 SGL 完全結合,開箱即用。Specforge 的核心特性,包括提供了對 TTT 的原生支持,支持 Eagle 3;在線與離線的訓練管線等等。
王超老師介紹了 Specforge 的近期亮點,包括達到了 SOTA GPT-OSS 性能;采用 Flex Attention 實現了高達 10-20 倍顯存節省;支持 VLM,成為業界第一個對 VLM 做投機采樣的工作,以及對 LoRA 的支持。
在未來,Specforge 開源計劃將聚焦于訓練加速、Eagle3 模型生態擴展,以及更先進的推測解碼算法的研發,持續提升模型推理效率與生態兼容性。
總結
熱情的社區成員,令人興奮的工作,引人期待的 Roadmap,廣泛的應用,正是一個良性循環的,高活力的開源社區應有的模樣。
這是國內第一次 SGLang 社區的 Meetup 活動,卻已足夠令人感到著迷。希望未來,社區能夠更加枝繁葉茂。
SGL 打滿!
https://github.com/sgl-project/sglang
https://x.com/PyTorch/status/1981777035207868492
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.