品玩9月10日訊,據阿里巴巴消息,Qwen團隊發布語音識別模型Qwen3-ASR-Flash。該模型基于Qwen3-Omni構建,支持11種語言自動檢測及轉錄,涵蓋中文、英文、阿拉伯語、法語等,還支持多種中國方言及不同地區英語口音。
在復雜聲學環境及語言模式下,它展現出高準確率。在標準中文公開測試中,錯誤率僅3.97%;處理中文口音時,錯誤率為3.48%;英文識別錯誤率3.81%。識別歌詞時,其錯誤率僅4.51%,遠超同類產品。
該模型具有靈活的上下文偏差功能,用戶輸入任意格式背景文本,都能獲取定制化結果。目前,用戶可通過ModelScope、HuggingFace和阿里云百煉API免費體驗。
據介紹,圖像創作正從文生圖邁向多模態交互新階段,Seedream 4.0已具通用多模態創意引擎雛形 。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.