用外賣的打法做AI模型?美團這是跟“又快又穩”杠上了(doge)。
兩個月哐哐發了多款模型后,美團依舊動作不停——
最新開源LongCat-Flash-Omni,從名字你也能看出來了(Omni意為“全能的”),沒錯,這款模型終于支持多模態了!
![]()
任務雖更復雜,但模型實力不減,一出手依舊是“開源即SOTA”:
在綜合性的全模態基準測試(如Omni-Bench, WorldSense)上,超越Qwen3-Omni、Gemini-2.5-Flash,這款模型直接達到了開源SOTA水準,而且能和閉源的Gemini-2.5-Pro相媲美。
即使單拉出來文本、圖像、音頻、視頻等各項模態能力,它也依舊能打(單項能力均位居開源模型前列),真正實現了“全模態不降智”。
![]()
而且啊,這款模型還有一個亮點,那就是“快”(天下武功唯快不破?)——
繼承LongCat-Flash系列“快”的基因,這款Omni模型總參數560B,激活參數僅27B,這種“大總參小激活”的MoE架構,使其在保持龐大知識容量的同時,實現了極高的推理效率。
不妨來直觀感受一下它的生成速度:

可以看到,從輸入指令到生成第一個token的時間間隔非常短暫,整個過程相當絲滑。
據悉,在當前主流旗艦模型的性能標準和參數規模下,這是首個能夠實現全模態實時交互的開源模型。
以及有意思的是,美團發布這一成果時恰逢“Cursor‘自研’模型套殼國產開源”的八卦發酵之際,因此美團AI實力被低估的看法正在受到熱議。(網友os:看看人家外賣公司,對比過于慘烈~)
![]()
目前,這款模型已在美團旗下的LongCat APP和Web端上線,人人都能免費體驗。
老規矩,一手實測火速走起~
實測美團新模型
打開LongCat APP,從首頁可以看到,它目前支持文字/語音兩種輸入方式,并能進行語音通話(視頻通話功能正在跑步入場中),Web端還支持上傳圖片和文件。
![]()
別的不說,最近很火的“讓AI幫忙數羊哄睡”的服務自然不能落下。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/Aia058is0yR9vfA_Yoypwg
好好好,AI你也偷懶是吧(doge)每數到三就跳到十,還能自圓其說是小羊干的,這下數到100還不是手拿把掐。
而眼見和LongCat聊天有點意思,那視頻通話內測當然得繼續安排上。
隨手拿過一個用光的香水瓶,接連拋出幾個問題:
- 這是什么?你能看到什么?瓶身上的字是什么意思?能帶上飛機嗎…
沒想到LongCat絲毫不慌,仔細“看過”后挨個解答了我們的問題:
![]()
視頻鏈接:https://mp.weixin.qq.com/s/Aia058is0yR9vfA_Yoypwg
看來“能看會說”這種基本功,已經難不倒咱們多模態選手LongCat了。
咳咳,言歸正傳我們再來測試一下文本/圖片的輸入情況。
在典中典的六邊形小球彈跳問題上,LongCat對物理世界規則的理解也表現不錯:
- Prompt:顯示球在旋轉的六邊形內彈跳。球應該受到重力和摩擦力的影響,并且必須逼真地從旋轉的墻壁上反彈。
由于貼心地附上了代碼和可視化方案,所以我們火速把相關代碼跑了出來,結果be like:

另外,在圖片理解測試中,我們發現LongCat非常適合用來“玩梗”。
隨便讓它識別一張梗圖,當我們還在苦思冥想時,人家秒秒鐘給出了正確答案:
![]()
3,2,1,答案揭曉:鴨(壓)歲錢。
![]()
最后再來看一下語音輸入,我們找了段復雜環境下的騎手送餐錄音,給LongCat上點難度。
![]()
音頻鏈接:https://mp.weixin.qq.com/s/Aia058is0yR9vfA_Yoypwg
nice,即使是在BGM和環境音的干擾下,LongCat也順利識別出了人聲信息,并給出了相應意見。
![]()
總之這波實測下來,對LongCat-Flash-Omni最大的感受就兩個字——快、穩。
即使面對復雜多模態任務,它也能做到即時響應,整個交互體驗尤為絲滑。
而且, 不管是聊天問答、語音識別,還是那種腦筋急轉彎式的推理題,它都能第一時間接得住、接得對。
可以說,Omni既延續了LongCat系列在對話和深度思考方面的傳統優勢,將回答的專業度拉滿,又自帶“Flash”系列的快基因——
好好好,果然不愧是LongCat-Flash-Chat和LongCat-Flash-Thinking的親傳弟子(Chat主打快、Think主打專業)。

此時回看LongCat系列的成長路徑,美團迭代模型的邏輯也很清晰了——先快、再專、后全。
- 速度優先。先把底層打通,把模型響應、語音識別、實時生成這幾件事做到“絲滑不卡”。對用戶來說,這就是“好用”的基礎門檻。
- 專業深耕。速度有了,再往深里卷。LongCat在復雜邏輯推理、物理仿真、嘈雜語音識別等領域,明顯做了不少優化。可以看出,美團不只是要做一個“會聊的AI”,而是想做能在復雜場景下穩定發揮的“懂業務的AI”。
- 第三步,全面拓展。雖然目前LongCat還沒開放圖片/視頻生成功能,但結合美團在視覺、地圖、語音導航這些本地服務領域的深厚積累,全模態路線幾乎是板上釘釘。到時候文字、語音、視覺全打通,也就順理成章了。
畢竟前不久,美團就已經單獨發了一個視頻模型LongCat-Video,其穩定生成長視頻的能力(一般可生成5分鐘)也給人留下深刻印象。
![]()
視頻源自:@quarterturn;視頻鏈接;https://mp.weixin.qq.com/s/Aia058is0yR9vfA_Yoypwg
又快又全,怎么做到的?
其實,做全模態大模型的并不只有美團——只是要么做得不夠好,要么做得沒美團快。
畢竟要讓AI“聽得懂、看得清、反應快”,遠比想象中難得多:
一曰多模態融合難度高。文本、語音、圖像、視頻……不同模態在結構和時間維度上差異明顯,強制融合反而會導致單模態任務效果不佳,樣樣通但樣樣松。
二曰離線理解與流式交互難兼容。模型看懂是一回事,邊看邊說是另一回事。兩種模式的處理邏輯差異巨大,難以在同一架構中結合。
三曰實時交互性能受限。現有模型能看能聽,但一到實時對話就卡殼,延遲高、響應慢,用戶體驗感差。要想模型實時性好,就離不開高質量的模型架構設計和基礎設施部署。
四曰大規模訓練效率低。多模態模型數據量龐大,模塊之間配合復雜,影響模型訓練速度。
而LongCat-Flash-Omni之所以能夠脫穎而出,關鍵在于它在架構層面重構了多模態融合的底層邏輯。
![]()
主干部分延續LongCat系列的高效架構設計,采用完全端到端的統一架構ScMoE,能夠同時接收文本、音頻、圖像、視頻及任意組合的多模態輸入。
實時交互層面,團隊設計了創新的流式音視頻處理機制,通過分塊式音視頻特征交織策略,模型能夠將音頻與視頻特征按照時間片段同步輸入LLM,實現低延遲的實時語音生成與視覺響應。
訓練上,模型采用漸進式早期多模融合訓練,先從純文本預訓練出發,依次引入音頻和視覺數據,再逐步建立跨模態語義對齊與時序建模能力。
再通過多階段退火(指先大膽探索,再小心收斂)與上下文擴展訓練,將上下文窗口擴展至128K tokens,最終模型在多模態長時記憶、多輪對話、時序推理等能力上具備顯著優勢,并支持超8分鐘的音視頻交互。
![]()
而且為了提升多模態訓練效率,團隊還提出了模態解耦并行(MDP)訓練方案,可以對LLM及編碼器的性能、內存占用進行獨立優化,確保訓練過程中系統長期穩定運行。
正是憑借這種全模態覆蓋+端到端架構+大參數量高效推理,LongCat-Flash-Omni達成了平衡:既有覆蓋文本、圖像、視頻、語音的全模態能力,又能在開源體系下達到與閉源模型相媲美的實時交互體驗,初步解決了參數大但推理慢的行業痛點。
軟硬件“兩條腿走路”,美團原來下的是這樣一盤棋
u1s1,今年以來美團的一系列動作確實給人一種“眼花繚亂”的印象——
7月,它接連領投了兩家明星具身智能企業它石智航&星海圖;然后從8月底開始,又密集發布LongCat-Flash-Chat、LongCat-Flash-Thinking、LongCat-Video等一系列模型。
而且推出的AI新品也不少,包括AI編程應用NoCode、AI生活助手小美智能體……
人們不禁要問了:美團這是要干啥?
![]()
帶著同款好奇,量子位在仔細梳理后發現,原來美團這些看似“東一榔頭西一棒槌”的動作,實則內有乾坤。
總結下來就是,美團正在靠著軟硬件“兩條腿走路”,以最終實現數字世界(比特)和物理世界(原子)的深度連接。
沒錯,又是“連接”這個因為太抽象宏觀而容易被大家忽視的點。記得美團方面曾表示:
- 我們是一家連接線下業務和線上世界的科技公司。
在AI時代,我們將繼續扮演這樣的連接者角色,實現數字世界和物理世界之間的連接,這是我們的強項所在。
這一目標落到實處即為,軟件這邊要朝著“世界模型”不斷邁進,硬件這邊則要圍繞“具身智能”加速落地。
這背后的邏輯很清晰:作為一家從移動互聯網起家的公司,美團比誰都清楚軟件的威力。但越往產業深處走,它越意識到,要將軟件的影響力延伸至物理世界,硬件是不可或缺的載體與瓶頸;而反過來,一個強大的“世界模型”,又能極大降低對硬件性能的苛刻要求,從而找到成本與效率的最優解。
有了這一判斷基準,美團之前的所有動作就都能一一對號入座了。
比如說大模型,從最基礎的對話機器人→深度思考模型→Video與Omni多模態模型,美團無疑是在為構建那個能深度理解現實并與其交互的“世界模型”打下根基。
而多年自研并頻頻出手投資具身智能,則是其“世界模型”能力在機器人、自動駕駛等關鍵場景中最核心的落地與兌現。
實際上,為了實現“世界模型+具身智能”的完美結合,美團如同一位老謀深算的棋手,其布局遠比外界看到的更早、也更為體系化。
早在2017年,當無人化概念方興未艾,美團方面就在一場行業峰會上提出了著名的“互聯網下半場”概念——上天、入地、全球化。
其中“上天”即指用高科技賦能全行業。美團那時候就強調:
- 未來甚至會利用無人駕駛技術和機器人來配送。
由此可見,用科技重塑服務業的遠見,早已深植于美團的戰略構想之中。
通過盤點其歷年投資的代表性項目,我們不難發現這樣一條清晰的脈絡:
2018~2020年,以加固美團本地生活護城河為目標,投資聚焦在消費領域。要么是美團本地生活業務延伸,如美菜網、普渡機器人;要么是消費品牌,如喜茶、蜜雪冰城。
2021年,當集團戰略升級為“零售+科技”后,雖然消費項目仍是重點之一,但當中科技項目的占比開始提升。尤其在無人配送方面,一大批與機器人和自動駕駛相關的項目獲得了美團青睞。
而從2022年開始,美團更是全面加碼了科技投資。從自動駕駛,到半導體AI芯片、再到各類具身機器人,美團持續押注未來核心基礎設施。
![]()
這些技術看似龐雜,但其內在邏輯高度統一——
美團投資的,早已不是某一種單一的機器人功能,而是“讓整個物理世界都能被精確計算和高效調度”的整套技術路徑。
在這條路徑中,AI是大腦,低空飛行與自動駕駛是腿腳,它們共同構成了一個超越具身智能的、更宏大的Robotics版圖。
關于具身智能,在剛剛落幕的2025美團機器人研究院學術年會上,美團副總裁毛一年清晰指出:
- 未來5到10年,具身智能正是這一切的核心技術范式。
![]()
他表示,美團的關鍵詞是autonomy(無人化)——讓技術驅動零售行業變革。過去數年,美團自研的無人機開始翻山跨海送漢堡、披薩,無人車完成了數以百萬計的訂單,風雨無阻,而機場、酒店、園區場景中,小黃蜂也在承擔閃購配送任務。
(注:美團還是全國唯一獲得民航局許可在中國全境合法飛行的無人機,而且在晚上也能飛。)
顯而易見,在美團的戰略拼圖中,這些看似獨立的智能終端,正逐漸串聯成一張覆蓋“低空—地面—社區”的立體化服務網絡。 它們并非簡單的設備疊加,而是美團將技術能力注入零售場景、實現系統效率躍遷的關鍵載體。
至此,美團在無數實踐中沉淀出的核心方法論已不言自明——零售是場景,科技是賦能。
當AI成為大腦,機器人成為雙手雙腳,具身智能與世界模型結合,連接起的就不僅是線上線下,更是比特與原子、虛擬與現實、算法與人類生活。
Anyway,雖然美團從未正面講述過它的“科技”圖景,但方向其實早已明明白白——
幫大家吃得更好,生活更好。
只不過這回,美團要“喂飽”的,不止是胃,還有未來。
LongCat Chat(APP需自行下載): https://longcat.ai
Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Flash-Omni
GitHub: https://github.com/meituan-longcat/LongCat-Flash-Omni
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.