奇富科技智能語音團隊再傳捷報——多模態(tài)情感計算研究論文Qieemo: Multimodal Emotion Recognition Based on the ASR Backbone被語音領域旗艦會議ASRU 2025正式收錄。由此,奇富科技成為極少數(shù)集齊全球語音領域三大頂會(ICASSP、InterSpeech、ASRU)成果的金融科技企業(yè),躋身全球語音技術研發(fā)第一梯隊。
![]()
作為音頻理解領域的旗艦會議,ASRU(全稱IEEE Workshop on Automatic Speech Recognition and Understanding)每兩年舉辦一次,代表著全球音頻理解領域研究的最高水平。
此次入選ASRU 2025的論文,其核心價值在于構建了一個具有普遍意義的理論框架,而不僅僅是一個特定任務的模型。論文從數(shù)學建模視角出發(fā),開創(chuàng)性地構建了以ASR模型為核心骨架的通用特征融合理論框架,系統(tǒng)論證了預訓練ASR模型編碼器多層次特征對下游音頻理解任務的本質性貢獻與關鍵作用機制。這一框架的提出,跳出了在現(xiàn)有模型上疊加網絡層或微調參數(shù)的常規(guī)思路,深入探索了語音表征的本質及其跨模態(tài)應用的底層邏輯,為多模態(tài)情感識別乃至更廣泛的語音理解任務提供了全新的、堅實的理論基礎。
應運而生的Qieemo模型實現(xiàn),正是基于此理論框架。它以預訓練ASR(自動語音識別)模型這一廣泛可得的組件為基礎,提取文本相關的語音后驗概率特征與幀對齊的情感特征,通過自研的多模態(tài)融合模塊與跨模態(tài)注意力模塊,實現(xiàn)了ASR模型不同層特征的高效融合。Qieemo模型的設計理念使其具備良好的可遷移性和擴展性,其核心思想——利用ASR骨干網絡提取的深層、對齊的特征作為多模態(tài)融合的基礎——不僅適用于情感計算,也為活體識別、語義理解等其他下游相關任務,甚至跨行業(yè)(如教育、醫(yī)療、娛樂等)的智能交互場景,提供了強大的基礎工具和新的研究范式。更為重要的是,Qieemo在實時交互過程中,除提供對應的文本信息外,還能提供更深層次的情緒信息。
![]()
Qieemo開創(chuàng)性地讓機器真正“聽懂”了人類語音中的情感!這項突破性技術將識別準確率較傳統(tǒng)方法提升15%以上,更在復雜場景下實現(xiàn)顯著突破——在已達SOTA的單模態(tài)方案MSMSER基礎上再創(chuàng)4%的相對提升,讓智能客服首次具備真正的“情感理解”能力,為情感計算領域樹立了“SOTA+”的新標桿。這一性能飛躍,正是源于對底層語音特征及其作用機制的深刻洞察,而非簡單的模型復雜化。
從業(yè)務價值來看,這一技術可直接賦能金融服務全流程:在智能客服場景中,通過實時識別用戶情感波動,可動態(tài)調整服務策略,提升用戶滿意度;在信貸審核環(huán)節(jié),結合語音情感特征與文本信息,能更精準判斷用戶信用狀態(tài),降低風險成本。更重要的是,Qieemo所奠定的理論基礎和框架設計,為金融乃至更廣泛領域的智能語音交互,構建了一個性能更強、適應性更廣的底層平臺。
與多數(shù)依賴開源技術或外部合作的金融科技公司不同,奇富科技在人工智能核心領域堅持全鏈路自主研發(fā),在語音識別、情感計算等前沿領域持續(xù)投入,形成了從算法設計到工程落地的完整體系。尤為關鍵的是,奇富科技的研發(fā)路徑選擇了一條更深入、更基礎的探索之路。當行業(yè)普遍聚焦于在現(xiàn)有神經網絡架構上堆疊層數(shù)或嘗試不同組合時,奇富科技選擇回歸問題本質,深入探究語音信號處理、特征表達與融合的底層數(shù)學原理和機制。這種對基礎理論和原創(chuàng)框架的執(zhí)著追求,使其在技術深度、應用靈活性以及長期競爭力上占據(jù)極大優(yōu)勢。
奇富科技首席算法科學家費浩峻表示:“完成三大頂會收官不是終點,而是奇富科技語音技術生態(tài)的起點。Qieemo模型的建立,標志著我們在構建基礎性語音理解能力上邁出了關鍵一步。它不僅服務于我們自身的金融場景,其理論內核和設計思想具備向同行乃至跨行業(yè)輸出的潛力。我們將持續(xù)探索語音技術與人機協(xié)作的融合臨界點,堅持在基礎理論和核心框架上的創(chuàng)新,讓金融科技有精度更有溫度,也讓更廣泛的智能世界受益于我們對底層邏輯的深刻理解。”
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.