![]()
在短視頻推薦、跨模態搜索等工業場景中,傳統多模態模型常受限于模態支持單一、訓練不穩定、領域適配性差等問題。
近日,字節跳動抖音 SAIL 團隊聯合香港中文大學 MMLab 提出 SAIL-Embedding——一款專為大規模推薦場景設計的全模態嵌入基礎模型,不僅實現了視覺、文本、音頻的統一表征,更在抖音真實業務場景中帶來顯著效果提升,相關技術報告已正式公開。
![]()
- 論文標題:SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model
- 技術報告:
- https://arxiv.org/pdf/2510.12709
- HuggingFace:
- https://huggingface.co/BytedanceDouyinContent/collections
![]()
SAIL-Embedding 能力概覽
突破傳統局限:
全模態 + 工業級優化雙管齊下
現有多模態嵌入模型主要分為兩類:以 CLIP 為代表的雙塔架構,雖高效但模態融合淺;以 MLLM 為基礎的融合架構,雖語義能力強卻多局限于圖文模態。SAIL-Embedding 則從根源上解決這些痛點:
全模態輸入:覆蓋短視頻核心信息維度
不同于僅支持圖文的傳統模型,SAIL-Embedding 可處理任意模態組合——包括視覺模態側的視頻關鍵幀/封面、文本模態側的標題/標簽/OCR/ASR 文本、以及音頻模態側的背景音樂/語音,以適配抖音等短視頻平臺的信息結構。例如,在視頻檢索任務中,模型能同時利用畫面內容、字幕文本與背景音效,避免單一模態信息缺失導致的語義偏差。
![]()
SAIL-Embedding 架構圖
訓練穩定性升級:動態難負樣本 + 自適應數據平衡
為解決大規模訓練中的噪聲干擾與數據分布不均問題,團隊提出引入兩種策略:
- 動態難負樣本挖掘:通過 F1 分數自適應確定相似度閾值,篩選「難區分」的負樣本(如主題相似但內容不同的視頻),讓模型更聚焦細粒度語義差異,避免簡單負樣本導致的訓練低效。
- 自適應多源數據平衡:基于 Sinkhorn 算法計算訓練集與驗證集的分布相似度,自動分配各數據源權重,減少人工調參依賴,同時兼顧數據質量與多樣性,緩解工業數據與開源數據的領域鴻溝。
創新訓練體系:
從內容理解到推薦適配的全鏈路優化
SAIL-Embedding 的訓練并非單一階段,而是一套覆蓋「基礎能力-任務適配-推薦增強」的多階段體系,確保模型既能理解內容語義,又能貼合真實推薦場景需求:
內容感知漸進式訓練:從通用到領域的精準過渡
訓練分三階段逐步深入:
- 第一階段:用超 10B 樣本的大規模多模態數據(含圖文音)預訓練,奠定基礎語義理解能力;
- 第二階段:聚焦與下游任務(如視頻檢索、標簽分類)對齊的高質量數據,優化任務適配性;
- 第三階段:引入難負樣本微調,強化模型對相似內容的判別能力。
![]()
內容感知的漸進式訓練
推薦感知的增強訓練:融入用戶行為信號
針對推薦場景,團隊將多模態表征向用戶歷史序列表征和線上 ID 表征兩個維度進行知識蒸餾以融于用戶協同行為信息:
- 序列到物品蒸餾:通過多維度的用戶歷史興趣序列篩選機制,利用用戶具有正向交互行為的歷史觀看序列(如最近 10 個觀看視頻)與目標視頻的關聯,讓模型學習用戶興趣的時序延續性;
- ID 到物品蒸餾:對齊推薦系統中的多元化 ID 表征嵌入,將用戶偏好信號(如點擊、關注等)融入多模態表征,使嵌入結果更貼合推薦側應用需求。
![]()
協同感知的兩階段推薦增強訓練
實測性能:
刷新多任務 SOTA,抖音業務指標顯著提升
無論是標準數據集的基準測試,還是抖音真實場景的在線實驗,SAIL-Embedding 均展現出卓越性能:
離線任務性能:多場景檢索與分類任務綜合領先
(1) Item-to-Item Retrieval (物品到物品檢索)
在 21 個涵蓋內容理解、搜索,以及協同感知的多任務場景下,SAIL-Embedding 顯著優于 CLIP-based 模型與 VLM-based 的模型:
![]()
(2) Query-to-Item Retrieval (查詢到物品檢索)
在 9 個涵蓋檢索為導向和分類為導向的多任務場景下,模型的 AUC 與 Recall 指標均取得領先:
![]()
在線落地效果:抖音多場景推薦指標顯著提升
在抖音 Feed 流、冷啟動、抖音精選、消息推送等核心場景中,SAIL-Embedding 通過潛入向量與嵌入離散化的語義 ID 兩種形式賦能推薦全鏈路,帶來了一致的 LT 和 AUC 增益,體現了其顯著的業務應用潛力。
![]()
SAIL-Embedding 的核心價值在于,它不僅是一款性能領先的全模態嵌入模型,更構建了一套從學術研究到工業落地的完整解決方案:通過全模態架構突破輸入局限,用動態數據策略解決訓練穩定性問題,以推薦增強訓練填補產業鴻溝,最終在抖音真實場景中驗證了技術價值,在短視頻、直播等富模態推薦場景中,具備極強的推廣價值。
抖音 SAIL 團隊在未來將進一步探索 VLMs 與推薦系統的深度融合,例如通過生成式任務注入推薦知識,讓模型不僅能「理解」內容,更能「預測」用戶偏好。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.