11 月 3 日,阿里巴巴推出 Qwen3-Max-Thinking 早期預覽版。Qwen3-Max-Thinking 是 Qwen3-Max 的推理增強版本,它通過集成代碼解釋器和運用并行測試時計算技術,展現(xiàn)出較強的推理能力。據(jù)了解,Qwen3-Max 是阿里巴巴于今年 9 月下旬推出的該公司迄今為止規(guī)模最大、能力最強的語言模型,參數(shù)量在 1 萬億以上,預訓練數(shù)據(jù)達到 36T tokens。
![]()
圖 | Qwen3-Max-Thinking 早期預覽版的相關 X 推文(來源:X)
目前,Qwen3-Max 推理模型仍在持續(xù)訓練中,即便使用當前的 Checkpoint,當借助工具調用和規(guī)模化的測試時計算時,阿里巴巴表示該模型可在 AIME 25 和 HMMT25 等挑戰(zhàn)性較高的數(shù)學推理基準測試中達到 100% 的準確率。
Qwen3-Max-Thinking 早期預覽版融合了思考模式與非思考模式。當開啟思考模式的時候,模型可以很好地執(zhí)行常識推理和智能體編程等能力,也在數(shù)學、科學和其他通用領域具有較好的推理能力。
![]()
(來源:實測圖)
在實測中,當筆者讓 Qwen3-Max-Thinking 完成一個名為“數(shù)學推理與可視化智能體”的智能體編程任務時,它花了較長時間思考,消耗的 tokens 也不算低。
![]()
(來源:實測截圖)
![]()
(來源:實測圖)
經(jīng)過幾分鐘的思考以及長達 527 行的代碼,它給出了一個示例輸出報告,附上了完整的 HTML 報告示例,并指出這一智能體通過多路徑驗證可以確保數(shù)學嚴謹性,通過結果的專業(yè)可視化能夠提供直觀的洞察,在架構設計上支持擴展至微積分和組合優(yōu)化等其他數(shù)學問題類型,能夠為復雜數(shù)學推理任務提供完整解決方案。
![]()
(來源:實測圖)
當給到 Qwen3-Max-Thinking 一個名為“社區(qū)生活情境推理”的常識推理任務時,它給出了兩千多字的回答,在這一回答中它根據(jù)線索開展了常識分析,給出了逐步重建的核心常識,并進行了超越表面問題的深度風險分析。
![]()
圖 | “社區(qū)生活情境推理”的常識推理任務的描述(來源:實測圖)
![]()
(來源:實測圖)
一位名為“MZift”的 X 網(wǎng)友在 Qwen 的 X 推文下表示:“在 AIME 測試中斬獲滿分著實驚人,即使是階段性測試也堪稱突破。當眾人沉迷于 OpenAI 的紛爭時,Qwen 正在悄然蓄力。中國 AI 實驗室的崛起之路,果然別具一格。”另一位名為“Kenshii”的 X 網(wǎng)友也評論稱:“竟能在AlME 2025 這一中期基準測試中拿到滿分?這實力著實駭人。”
![]()
圖 | X 網(wǎng)友評論(來源:X)
但也有網(wǎng)友根據(jù)試用體驗表達了自己遇到的問題,一位名為“Goutham Rajesh”的 X 網(wǎng)友表示:“我在試用帶有‘思考過程’的 Qwen3-Max 時,頁面竟然陷入了無限滾動模式,每當生成響應內(nèi)容,頁面便持續(xù)地進行遞歸式自行滾動,直到完全生成內(nèi)容才會停止。這一現(xiàn)象僅限于 Qwen3-Max 思考模式。”寫完這段話,這位網(wǎng)友還艾特了 Qwen 的 X 賬號來反饋該問題。
![]()
圖 | X 網(wǎng)友評論(來源:X)
事實上,這并非阿里的突然發(fā)布。11 月 2 日,通義千問負責人林俊旸已經(jīng)在 X 上預告稱:“它來了,你們可以試試。”關于 Qwen3-Max-Thinking 早期預覽版,尚未在 Hugging Face 和魔搭等平臺開源。目前,用戶可以在 Qwen Chat 中免費試體驗,也可以在阿里云百煉平臺上調用 API。需要說明的是,文本到文本——是 Qwen3-Max-Thinking 早期預覽版目前支持的唯一模態(tài)。在對外提供 API 服務上,它采用輸出限時免費的方式。未來隨著訓練的進一步開展,阿里也將推出更多版本。
名為“ρ:ɡeσn”的 X 網(wǎng)友已經(jīng)根據(jù) Qwen 的模型時間給出了推測:“Qwen3-Max 預覽版于 9 月 5 日發(fā)布,正式指令版于 9 月 23 日亮相,其間相隔 18 天。假如思考模型也遵循這一時間線,那么 Qwen3-Max-Thinking 正式版有望于 11 月 20 日到 11 月 21 日之間亮相。”是否真的如此,或許不久之后即將揭曉。
參考資料:
https://chat.qwen.ai/
閱讀 1666
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.