品玩11月3日訊,美團今天正式開源全模態大模型LongCat-Flash-Omni,該模型以5600億參數規模(激活參數270億)實現了低延遲實時音視頻交互能力。
作為業界首個集全模態覆蓋、端到端架構與大參數量高效推理于一體的開源模型,其采用創新型ScMoE骨干網絡與輕量級多模態編解碼器,結合分塊式音視頻特征交織機制,支持128K上下文窗口及超8分鐘交互時長。
評測顯示,模型在Omni-Bench等全模態基準測試中達到開源SOTA水平,文本、圖像、音頻、視頻單模態能力均位居前列。其采用漸進式多模融合訓練策略,分階段融合文本、語音、圖像與視頻數據,確保全模態性能無退化。模型已上線Hugging Face與GitHub平臺,并提供在線體驗與官方App支持語音交互。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.