![]()
四月的AI界略顯沉寂,眼看著這一周就要在平淡中結束。然而,阿里沒有讓人失望,期待已久的通義千問 Qwen3終于重磅登場,瞬間引爆全網。
這一次,AI界的“汪峰”終于成功搶到了頭條。
那么問題來了——這次發布會到底發布了什么?
簡單來說,一句話總結:一次發布八款模型,覆蓋多種規模與架構,全面開源!
具體來看:
2個MoE模型:分別是Qwen3-235B-A22B和Qwen3-30B-A3B,分別表示總參數為2350億和激活約220億 / 300億;
6個稠密模型:包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B。
從個位數到千億級,各種尺寸一應俱全,全部基于 Apache 2.0 協議開源。無論你是科研人員、開發者還是創業者,總有一款適合你。
模型性能怎么樣?看數據說話!
旗艦模型Qwen3-235B-A22B在代碼、數學以及通用能力等基準測試中,表現極具競爭力,對標 DeepSeek-R1、OpenAI o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等頂級模型毫不遜色。
![]()
![]()
更令人驚喜的是,小型 MoE 模型Qwen3-30B-A3B僅激活30億參數,卻擁有接近甚至超越傳統大模型(如 QwQ-32B)的表現。即使是輕量級的Qwen3-4B,也能媲美 Qwen2.5-72B-Instruct 的性能。
核心亮點一覽1. 雙模式推理機制:思考 or 不思考,自由切換
不同于 DeepSeek R1 或 OpenAI o1 這類專注于推理的模型,Qwen3 支持兩種思考模式:推理模式與非推理模式,并可以在兩者之間無縫切換。這種靈活性讓用戶可以根據任務需求控制模型是否深入“思考”,實用性拉滿。
![]()
2. 強化 Agent 能力:不只是模型,更是智能體
當前主流模型都在強化對 Agent 的支持,Qwen3 自然也不例外。其 Agent 功能和代碼能力經過優化,并增強了對MCP(Multi-Agent Communication Protocol)的支持,進一步提升了多智能體協作的能力。
訓練細節揭秘【預訓練階段】
Qwen3 的預訓練數據量是 Qwen2.5 的兩倍,總計高達36 萬億 token,涵蓋119 種語言與方言。整個訓練過程分為三個階段:
- S1 階段
:基礎語言技能與通用知識學習;
- S2 階段
:加強 STEM、編程和邏輯推理能力;
- S3 階段
:使用精心挑選的 5 萬億 token 數據集進行微調。
![]()
得益于架構優化、數據擴容及高效訓練方法,Qwen3 的稠密基礎模型在性能上已能匹敵甚至超越更大參數量的 Qwen2.5 模型。例如:
Qwen3-1.7B/4B/8B/14B/32B-Base ≈ Qwen2.5-3B/7B/14B/32B/72B-Base
尤其在 STEM、編碼和推理領域,Qwen3 表現更為出色。
對于 MoE 模型而言,它們只需激活約10%的參數即可達到與 Qwen2.5 稠密模型相當的性能,顯著降低了訓練和推理成本。
【后訓練流程:四步打造全能模型】
Qwen3 的后訓練流程類似于 DeepSeek R1,采用了四階段策略:
![]()
長思維鏈冷啟動
使用多樣化的長思維鏈數據(涵蓋數學、編程、邏輯推理等)對模型進行初步微調,培養基本推理能力。
長思維鏈強化學習
利用規則獎勵機制進行大規模強化學習,提升模型的探索和分析深度。
思維模式融合
在包含長思維鏈和標準指令微調數據的混合數據集上繼續訓練,實現推理模式與快速響應模式的自然過渡。
通用強化學習
最后階段專注于20多個通用任務領域,包括指令遵循、格式規范、Agent行為等,全面提升模型通用性并糾正潛在不良行為。
Qwen3 的發布不僅是阿里在大模型領域的又一次集中發力,更是對整個 AI 社區的一次重磅回饋。憑借豐富的模型種類、強大的性能表現、靈活的雙模式設計以及開源精神,Qwen3 無疑將成為下一階段 AI 開發者手中的利器。
如果你想理解體驗,可以到https://chat.qwen.ai/上面使用。
如需獲取更多技術細節或開始使用 Qwen3,歡迎訪問阿里官方文檔或開源平臺。
本文由「AI 范兒」出品
我每天都在更新,如果你覺得這些內容對你有用,
那我們就加個關注、交個朋友。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.