機器之心報道
編輯:Youli
2003 年,美國哈佛商學院教授克萊頓?克里斯坦森在《創新者的解答》中提出這樣一個觀點:顛覆性創新常常通過讓復雜的產品或服務變得更簡單、更便宜、更易用,從而讓更多的人能夠參與進來……
之后的二十多年里,各路互聯網先驅都把這一觀點奉為圭臬,在一次又一次的技術變革中反復驗證。而進入新一輪 AI 浪潮,技術的發展像是按下了加速鍵,從架構到參數、從單一語言到多模態大模型、從基礎大模型到行業大模型……「卷生卷死」的背后是技術演進曲線的陡峭攀升,產品服務的層出不窮,而這一觀點仍然適用。
對于「更多的人」來說,技術的演變、發展更像是冰山下的「不可見」,他們更關心的是冰山上的「可見」:AI 具體解決了什么問題。
這也是各大互聯網廠商和新的模型玩家創新的出發點。淘寶是其中的一個典型玩家,具體做法是力求將 AI 功能融入到淘寶應用場景的每一個毛細血管深處,去解決每一個具體的用戶問題。為著這一目標,淘寶的 AI 技術團隊不斷發力。
今年 3 月,淘寶全面升級 AIGX 技術體系,具備基礎研究、應用開發和產業化的完整鏈條,覆蓋了 AIGI(索引)、AIGR(推薦)、AIGB(出價)、AIGA(拍賣)、AIGC(創意)、AIGD(數據)等電商商業經營所需的全部場景。用阿里巴巴中國電商事業群首席科學家、技術總裁鄭波的話來說,「AI 已經成為淘寶算法的基因。」
近日,在 CNCC2025 大會上,鄭波首次公開了淘寶全模態大模型的最新進展,并系統介紹了多模態智能在淘寶 AIGX 技術體系的研究應用。另外,結合 AI 模型技術在淘寶應用中的實踐,他認為,「狹義 AGI 很可能在 5-10 年內到來。」
![]()
以下為鄭波的主題分享內容,機器之心在不改變原意的前提下進行了整理。
AI 時代,生成式 AI 將帶來生產力的代際躍升
回望過去幾年,我們一次次被 AI 技術突破的速度震撼 —— 兩年多以前還在討論 ChatGPT,接著就是今年年初的 Deepseek、Claude Code,再到近期發布的 Sora 2,AI 技術的迭代速度之迅猛,仿佛每年都是一個跳躍式發展的時代。
如果我們將視線放遠,仔細翻看過去二十多年互聯網發展與變遷的「史書」,各種各樣的技術升級、產品迭代故事案例,其實都是在圍繞著技術發展與商業變革雙向驅動的螺旋軌跡演進。
![]()
PC 互聯網時代的關鍵詞是「數字基石」,開放式硬件架構、圖形化操作系統和軟件生態重塑世界,門戶網站與搜索引擎推動全民數字化啟蒙。而就是在這一時期,2003 年淘寶上線,正式開啟中國「電商元年」,并率先在搜索中應用機器學習模型,奠定技術驅動商業的基因。
等到進入無線互聯網時代,「時空折疊」成為這一時期的關鍵詞,智能手機與 4G 催生移動互聯網革命,信息流推薦與社交網絡打破空間限制,而淘寶也正式開啟移動端敘事。2013 年,手機淘寶實現雙 11 個性化推薦,推動首頁信息流化,「猜你喜歡」進入首屏,并開源高維稀疏框架 X-DeepLearning 等,引領行業技術標準。
再之后,從 AlphaGo 戰勝圍棋高手李世石,AI 浪潮興起,到 ChatGPT 開啟大模型敘事,Sora 引入多模態敘事,再到 DeepSeek 改寫大模型落地新篇章,以及近期 Sora2 的再次重磅來襲,不可否認,我們正站在一個全新的 AI 時代進程中……
如果用一個關鍵詞來形容,我們認為應該是「智能增強」。AI 時代以數據、模型和算力為引擎,「智能增強」使得人類與技術,第一次可以用「共生」來形容。
更為重要的是,與前兩次技術革命主要解決連接效率、便捷性的命題不同的是,AI 時代的最大驚喜,應該就是生成式 AI 對于生成力的代際提升。其中,「多模態智能」,正在成為最為關鍵核心的技術域,它使得 AI 能夠像人類一樣,綜合理解和生成文字、圖像、語音、視頻,實現從單一感知到跨模態推理的飛躍,以及產生交互行為,執行復雜任務。而這意味著 AI 可以更自然地與人協作,更好地解決人類生活中的真正實際問題。
對于淘寶來說,從 2023 年起就開始大力布局 AI,自研多模態、搜推廣、視頻生成等大模型家族,通用能力已然達到國內第一梯隊水平。基于全面升級后的 AIGX 技術體系,AI 萬能搜、AI 試衣、萬相營造、廣告大模型 LMA 等 AI 產品和模型不斷涌現。
我們可以看到,技術創新驅動商業生態升級,而商業的海量場景反哺技術突破,形成「技術創造價值 — 價值反哺技術」的雙螺旋演進。
多模態智能是淘寶最重要的 AI 技術域,已在 AIGX 技術體系「深度應用」
今年 7 月,淘寶發布了一個名為 RecGPT 的百億參數推薦大模型,實現了生成式推薦( AIGR )的技術升級,并全面接入手機淘寶首屏「猜你喜歡」信息流。可以說,淘寶是業內第一個嘗試用 LLM 能力來「系統化」改造推薦算法的,也就是說,在其他玩家還在布局基礎模型的時候,我們已經在思考技術與場景的緊密結合,該如何使算法更懂用戶,讓用戶的購物行為更為「絲滑」。
具體來看是這樣,傳統推薦算法通過協同過濾、深度學習等,使用用戶同商品或內容的交互數據,來預測點擊和成交概率,計算效率高,適合結構化數據,但會受到歷史數據和冷啟動的制約,還容易陷入「信息繭房」。
生成式推薦算法,則基于多模態大模型,結合世界知識,來生成符合用戶偏好的新內容或個性化推薦序列。它的創造力強,支持多模態輸入輸出,能適應復雜非線性關系。
![]()
簡單來說,傳統推薦系統只能匹配現有實體來進行關聯和預測,更適合標準化、結構化的需求;而生成式推薦,能夠跳出原有的數據局限,生成新內容或動態策略,進行創造和推理,更適合多元化、個性化和發現性的需求,讓算法更懂用戶。
比如,當 RecGPT 發現一些用戶群體從去年 3 月開始持續購買嬰兒床、1 段奶粉、安撫玩具等商品,就會推斷出該用戶群體可能有寶寶出生。
因此,根據時間推斷,當寶寶可能滿 1 周歲時,系統會主動推薦學步車、3 段奶粉、早教玩具等適齡商品。而等到「雙十一」期間,系統則會結合用戶的歷史品牌傾向和店鋪關注,精準推薦冬季童裝的優惠組合。
之所以能夠做到這樣,是因為我們的推薦大模型 RecGPT 以淘寶百億參數的多模態大模型為基礎,對 10 萬量級的上下文進行總結,理解長達十年的用戶在淘寶的行為信息,全模態認知數以億計的商品信息,再結合世界知識進行推理,為用戶推薦之前沒看過甚至沒想過、但又有潛在需求的商品。
又比如今年 8 月,在有些天文愛好者還不知道 9 月 8 日將會迎來月全食的時候,他們的信息流推薦中已經出現了月全食觀測設備……
![]()
可以說,不同于傳統推薦,RecGPT 更像個貼心的生活小助手。
最新數據是,搭載 RecGPT 大模型的推薦信息流,實現用戶點擊量增長超過 16%,用戶加購次數和停留時長則提升 5% 以上。
在多模態生成方面,AIGC 正以前所未有的效率重塑電商場景的內容生態。
我們可以結合具體的案例來看一下。
商家有一條碎花連衣裙,且只有一張普通的平鋪照片,以往情況下,在商品頁面也只能這樣展示,但現在不同了。僅基于這樣一張照片,系統便能夠匹配生成一個虛擬模特,之后生成多張模特穿著此連衣裙,在不同場景的擺拍照片。
更進一步,視頻生成模型還可將照片生成為視頻片段,并根據首尾幀生成視頻轉場,再生成虛擬模特講解視頻之后,多模態劇本生成和自動剪輯技術將全自動的制作出一條完整的「帶貨視頻」,從而大幅降低商家的內容制作成本。
![]()
一件普通的連衣裙,可以全自動制作出完整帶貨視頻的背后,便是淘寶自研的專注電商的視頻生成模型 ——淘寶星辰?視頻生成模型。從第一版推出以來,以其懂客戶、懂電商的特點受到廣大商家的歡迎。
此次,我們推出了升級版 ——淘寶星辰?視頻生成模型 3.0,這一版視頻生成模型采用了更緊湊的 16x16x4 時空壓縮 VAE,在大幅增加 DIT 參數的情況下,保持推理的高效。此外,高品質、類別平衡的訓練數據,搭配大幅提升的語義理解模塊,使得模型動作更加靈動,語義更精確,畫面更原生。升級后的版本即將上線淘寶多個電商產品。
![]()
不僅如此,要全自動生成前面的帶貨視頻,需要優秀的多模態模型,一方面要理解圖像和劇本,另一方面要支持音視頻等輸出,這也離不開全模態大模型「TStars-Omni」的功勞。我們的「TStars-Omni」支持輸入文本、圖像、視頻、音頻,輸出文本和音頻,能夠極大程度對齊人類感官。
- 在 LLM 方面,我們采用 MLA 和 MTP,顯著提升了模型的吞吐,提供了極致性價比的模型基座;
- 視覺編碼器方面,支持原生分辨率輸入,很好適配了不同尺寸、不同寬高比的圖片理解;
- 音頻理解方面,重點打磨語音識別能力,尤其是電商場景的用戶語音,在中英文混合、方言、背景多樣等方面重點優化;
- 語音合成方面,重點優化情感合成、音色克隆等能力,打磨特色音色,應用到廣告短視頻配音等業務。
此外,基于 TStars-Omni 模型,我們打造了全面的商品理解,輸入商品的所有多模態信息,包括標題、圖片、屬性、詳情頁圖文等,可以生成商品各方面的理解,并進行深度推理。
比如,當用戶分別輸入一張冰箱和廚房的平面圖后提問:「我可以把這個冰箱放進我的廚房嗎?」TStars-Omni 模型就會對圖片進行分析推理,繼而回答可以還是不可以,如果答案是「無法直接嵌入」后,還會給出相關的建議和提醒。
接下來,再來介紹一下我們的 AI Agent :iFlow CLI。iFlow CLI 的核心理念是「一個內核,多種應用方式」:程序員可以把它當做 terminal 命令行,也可以作為 IDE 插件,業務開發者則可以通過 Agent SDK 快速集成。這種設計讓不同用戶都能找到適合自己的使用方式。
![]()
另外,iFlow CLI 打造了一個開放平臺,真正做到開箱即用。通過內置的 Hooks、各種輸出樣式、智能體市場和命令市場,用戶可以直接安裝使用。同時非常安全,從結果準確性到權限管控,讓大家用得安心。更重要的是,iFlow CLI 提供完全免費的多款國產模型。
在性能表現上,我們針對國內開源模型進行了深度優化。在多項基準測試中,iFlow CLI 相比 Claude Code 等工具在使用國產模型的情況下都展現出了更優的綜合性能。iFlow CLI 遠不止于編程,它可以應用到廣告創意、學術寫作、旅游攻略制定,甚至流程圖繪制等各種場景。關鍵的一點,iFlow CLI 面向個人用戶永久免費開放。
綜合以上的分享可以看出,多模態智能已經在淘寶 AIGX 技術體系發揮著越來越重要的作用。
![]()
這背后正是淘寶對于技術發展與商業變革雙向驅動的發展趨勢的判斷。我們認為,面對未來在生活消費場景越來越復雜的任務,用戶需求將呈現跨模態、具身化演進,多模態的理解和生成將成為標配,也唯有多模態智能,才能支撐「所想即所得」的終極消費體驗。
淘寶一直致力于建設「萬能的淘寶」,我們也將構建全球領先的多模態 AI 能力體系 —— 這不僅是技術演進方向,更是生態級電商平臺的升級所必需。
更為重要的是,經過不斷在自家內部場景打磨、驗證后,淘寶還想與業界一同「共享」AIGX 技術體系的創新能力。
技術開放與生態共振
今年 6 月,淘寶正式開源了全新一代強化學習訓練框架 ROLL(Reinforcement Learning Optimization for Large-scale Learning)。
![]()
ROLL 以用戶體驗為核心設計理念,專為「高效?可擴展?易用」而打造,徹底打通從小模型到 600B + 超大模型的 RL 訓練落地路徑,在諸如人類偏好對齊、復雜推理和多輪自主交互場景等關鍵領域顯著提升了 LLM 的性能,同時具備超高的訓練效率,已在淘寶多個內部業務場景中應用,為業務創新提供了強大的技術支持。
而在 10 月初,我們的生成式預估訓練框架 RecIS 也正式開源,這是一個專為超大規模稀疏 - 稠密計算設計的統一架構深度學習框架,基于 PyTorch 開源生態構建,為推薦模型訓練,或是推薦結合多模態大模型訓練提供了完整的解決方案,且已廣泛應用在阿里巴巴廣告、推薦、搜索等場景中。
不難看出,淘寶正在逐步將內部場景驗證后的能力向外部釋放,形成生態擴張動能,從而促進整個行業加快邁向「超級智能(ASI)」時代的步伐,這是整個人類的星辰大海。
從過去兩年多的發展來看,AI 處理問題的復雜度每年以 5-10 倍速度增加,而 AI 的錯誤率每年降低 50%,模型 inference(推理)的成本每年也降低一個數量級。
假如我們把 「超越人類智能」定義為 ASI,把「在多數開放環境任務完成度超過 95% 的人類」定義為狹義 AGI,那么,如果模型能保持這個速度進化,狹義 AGI 很可能在 5-10 年內到來。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.