![]()
新智元報道
編輯:編輯部
【新智元導讀】剛剛,唯一全國產算力訓出的大模型重磅升級,推理效率飆升100%,數學能力國際領先。當全球巨頭還在云端「卷」算法時,中國隊則亮出了軟硬一體這一截然不同的底牌。
時至今日,在中國主流大模型中,訊飛星火仍是「唯一」基于全國產算力訓練的通用大模型。
而就在剛剛,他們在發布會上宣布,通用大模型國產算力訓練的兩座大山,被攻克了——
·長思維鏈強化學習訓練效率
·MoE模型全鏈路訓練效率
同時,全新深度推理大模型——訊飛星火X1.5,也正式發布!
基于MoE架構的星火X1.5,總參數293B,激活參數30B。
相較于上一代,推理效率直接暴漲100%。
根據多項國內外權威評測基準,星火X1.5的綜合性能成功躋身全球頂級大模型行列。
![]()
![]()
此外,訊飛還全球首發了非自回歸語音大模型架構——不僅效果提升了16%,而且推理成本也暴降了520%!
![]()
從年初DeepSeek橫空出世,到OpenAI的GPT-5,AI全球競賽整整一年沒有停下。
技術的迅猛發展和應用場景的不斷拓展,推動了AI從探索階段走向了實際落地的關鍵時刻。
如何落地,如何激發AI開發者無限創造力,如何讓普通人也能共享AI時代的發展紅利?
科大訊飛董事長劉慶峰給出了一個清晰的洞見,AI紅利兌現的四大關鍵核心:自主可控、軟硬一體、行業縱深和個性化。
AI進入物理世界的關鍵門票
AI的上半場是對話革命,是算法的狂歡。
在數據中心里,Token正在瘋狂消耗,AI的能力在一年內增長了千倍上萬倍。
這催生了無數AI大腦——它們在云端無所不知,能寫詩、能編碼、能通過法律和醫學考試。
然而,當這些聰明的「大腦」試圖走出數據中心,進入真實的物理世界時,它們突然變得「五感失靈」。
現實世界不是無菌實驗室,它充滿了混亂:
嘈雜的背景音(噪音)、十米開外的指令(遠場)、模糊的口音、混亂的多人對話(多模態),以及每個用戶獨一無二的需求(個性化)。
純軟件的AI模型,在處理這些「物理世界的復雜信號」時,表現得一塌糊涂。
當行業在「純軟」的死胡同里打轉時,科大訊飛選擇的是一條能夠讓AI在真實世界應用落地的路。
他們在全國產平臺上,將硬件能力和大模型深度對接,一步一個腳印地死磕AI進入物理世界的關鍵門票——軟硬一體。
![]()
科大訊飛以智能語音起家,將這項能力長板硬件業務重塑為「未來AI的基石」。
人類想要感知物理世界,最重要的就是聽、說、看,而AI算法再強也無法繞過聲學與光學規律。
首先是「聽」。
訊飛原創的多型麥克風陣列,通過AI的測算和動態調節激活部件,實現了語音屬性的解耦,信號的時空分離,不同位置聲源的精準定位,自適應背景降噪,回聲消除,以及說話人分離等技術。
![]()
在應用這項技術的訊飛智能辦公本X5上,高噪遠場識別效果,遠超iPhone17 Pro。
![]()
然后是「說」。
訊飛AI翻譯耳機在高噪環境的測試表現,也顯著優于AirPods 3。
在地鐵、展會等嘈雜環境的識別準確率高達97.1%,并且還首創了多感融合AI降噪系統,通過軟硬件的結合讓降噪效果變得更好。
更加科幻,甚至稱得上是黑魔法的是,訊飛的雙屏翻譯機2.0在開啟強降噪之后,可以形成穹頂式的隔音墻,把1米以外的人聲和噪聲全部隔離。
當1024節現場演示這項功能時,就像阿西莫夫所說,領先時代的科技看起來都和魔法無異,這不就是網絡小說里的經常看到的能力結界嗎~
![]()
不僅如此,訊飛還打造了業界首個同傳麥克風,不僅可以進行實時同傳翻譯,而且還可收聽翻譯語音,時延低于2s。
![]()
訊飛的AI+揚聲器陣列技術,可以說實現立體空間聲場重構和均衡。
![]()
用于智能座艙聲場的iFLYSOUND,目前已經在19家車企量產落地。
音響效果可以媲美國家大劇院,而在盲測中,10萬級別的國產車效果就超越了寶馬740i,甚至可以媲美百萬級的豪車邁巴赫S680。
![]()
在教育領域,訊飛依舊持續發力。
最新的AI黑板可以讓教室里每個座位都是C位,在10米的距離上,聲壓差小于等于3分貝,每個角落都可以聽清。
而且這款AI黑板還采用了全球首款圓偏類自然光護眼大屏,不論坐在教室中央,還是坐在兩側的同學都能獲得同樣的上課體驗。

訊飛將軟硬一體的原生AI硬件能力下放到AI學習機上,不僅將護眼功能拉滿,還能通過AI算法糾正孩子學習時的坐姿。

此外就是「看」,訊飛的自研AI攝像頭陣列產品能夠實現目標的精準識別和跟隨。
![]()
這些和AI緊密結合的硬件能力,并不是存在于單一的模塊。
不論是展館中的智能屏攝像頭,還是AI學習機上監看作業本的攝像頭,不論是隨身的耳機,還是未來汽車中的音響,訊飛將AI能力和硬件原生地綁定在一起。
訊飛的硬件不是簡單的外設,而是為AI量身定制的「超級感官」。
當未來具身智能真正走入社會,和人類共同生活,軟硬一體支撐的多模態交互是AI融入真實世界的物理基礎。
![]()
別再說AI冰冷,它比真人還貼心
如今,我們身邊有很多虛擬AI形象,但它們始終無法融入到我們的生活之中。
這背后關鍵因素在于,傳統AI虛擬人并不具備多模態交互的能力。
它就像一個「冰冷的機器」,無法感知人的情緒,無法擁有個人專屬記憶,更難以建立真實的情感連接。
要真正做到多模態交互,還需要具備以下幾個關鍵要素——
麥克風遠場識別、3D世界感知、多人主動交互、類人舉止反饋、視聽覺融合理解、超擬人數字人、個性化記憶、情感語義。
![]()
只有以上所有技術,綜合聯動耦合,這樣的AI數字人就可以進入更加深度應用的空間中。
這一次,發布會上,訊飛基于星火X1.5深度推理模型之上,首發個性化記憶能力。
通過多源記憶庫信息檢索和應用,它可以找到個人記憶,并進行識別、提取、更新。
現場演示中,兩位訊飛伙伴一位歪果仁朋友Henry和與虛擬人「小飛」,開啟了多輪「有記憶、有情感、有溫度」的對話。
他們一走到屏幕前,小飛一眼識別到新朋友,并自動切換語種——英語和Henry無縫交流,得體自然。
在三人的交流過程中,AI并不會無意間插話,而是認真做一個旁聽者。這就體現了,在多人對話中,AI理解場景的能力。
接下來,小伙伴們又和小飛交流起發布會展區的實況。讓其推薦一個適合翻譯交流產品,它立即給出了建議——雙屏翻譯2.0、AI翻譯耳機,以及在展區的位置和購買方式。
小飛還可以為Henry推薦安徽著名景區黃山,打卡美食臭鱖魚,甚至還可以幫忙預訂酒店、門票。
不僅如此,諸如對話時暫停、揮手再見等手勢,小飛也能秒懂并回應,堪比真人理解力。
它甚至擁有獨特的人性化記憶。當小哥說要當Henry的司機,小飛非常關懷地問道:
「我記得你前幾天不太舒服,出去玩沒問題吧?」
小哥當場描述自己的癥狀后——這幾天有點受涼,流清鼻涕,讓小飛幫忙辨別應該喝哪種藥時,小飛會依據癥狀分析得出:吃荊防顆粒。
順帶,它還貼心提醒他們,未來幾天黃山天氣多變,需要增添衣物。
![]()
更有趣的是,讓小飛扮演「林黛玉」,并總結為Henry制定好的旅行計劃。只見,從音色、到形態,簡直有模有樣。
其實,不止林黛玉,訊飛數字人還可以模擬各種聲音。
發布會上,他們首發了「百變聲音復刻」,一句話即可上演角色宇宙,實現真實的超擬人交互。
![]()
演示中,輸入一句話,可以創造一個溫暖的女聲音色,也可以是一個嗓音粗獷的大將軍音色。
超擬人數字人之所以能夠實現流暢的多模態對話,不僅依靠前端麥克風、攝像頭等硬件協同。
更重要的是星火所支撐的多輪對話、語義理解與生成能力,再結合個性化音色等,這些技術做到了深度融合。
正因此,才能讓當前「同質化」大模型,真正轉變為每個人身邊貼心、實用的學習與工作助手。
![]()
更懂你的AI,告別千篇一律
所以真正的AI,不是千篇一律的AI,而是可以讓每個人站在AI肩膀之上,懂你所需的AI。
每個人應當借助AI,成就更好的自己。
![]()
那么,要成為一個更懂你的AI,需要具備什么樣的條件?
它能夠滿足一個人的成長需求、工作需求、生活需求,以及情感需求。
它還要具備歷史記憶、人格特征、多維理解、專有知識的能力。
![]()
涵蓋面如此之廣,聽起來又很抽象,不如我們就把它放入實際場景中,去看看「懂你的AI」究竟是什么樣的?
批改糾錯,小時級閉環
以教育為例,如何真正做到「理解孩子」,關鍵在于為孩子的學業減負增效,釋放更多時間。
這背后,核心在于「懂學情」。
如今,在智能評分、分布驟批改作業、錯因分析三座高峰,訊飛AI能力不斷提升,并持續保持行業領先水平。
![]()
他們首創的「三級錯因體系」,覆蓋了4000+錯因標簽,可以讓AI錯因診斷水平超越普通教師。
![]()
這不,大會現場,「數學老師」拿著待批改的試卷,生動還原了一場真實的教學場景——課程內容是:二次函數與一元二次方程、不等式。
她將一摞學生試卷,放入星火批閱機后,便開始了高效的作業的掃描。它能以1分鐘,掃描一個班級的量。

沒幾分鐘,掃描和批閱幾乎同時完成。
以第一位同學周恬(化名)的數學作業為例,在解答題部分,AI可以「分步驟批改」,并給出了錯因診斷,以及糾正方案。
![]()
![]()
![]()
左右滑動查看
與此同時,隨著學情不斷累積,它還能直出歷次的「學情報告」。
每一次學情狀況,都會在知識圖譜上動態呈現,還可以就一個知識點繼續挖掘,從根本上精準解決薄弱點。
![]()
以上只是一個學生的學情,放大到整個班級,批閱機還會為老師生成一份整體的報告。
AI匯總了學生的「共性錯因」,讓老師可以對知識點講解的輕重有一個更好的把握。
![]()
在上課時,AI黑板右下角就會浮現「AI教師助手」,它會根據剛才的學情報告,為老師提供相關的教學建議。

可以看到,從星火批閱機,到星火教師助手,再到AI黑板,可以做到完整聯動。
![]()
老師從作業批改到教學,實現了「小時級」的閉環,為其規劃出最合理的個性化教學路徑。
醫學能力跨越式突破
一個懂你的AI,還需要懂你的健康。
這意味著,它必須具備醫學診斷能力,可以管理個人的健康檔案,提供健康管理咨詢等等。
訊飛「智醫助理」就是這樣一個懂你健康的AI。它是全球首個通過國家執業醫師資格考試筆試測試,并真正投入一線應用的醫學AI。
這一次,「智醫助理」的能力再次升級,覆蓋病種拓展至2500種,首診合理度從95分提到98分以上,還新增了醫學思維鏈循證推理和中醫輔助診療。
![]()
假設調用一份真實的病歷——引發熱、心悸胸悶,就診于內科45歲女性患者。
引用病歷后,「智醫助理」會主動提醒,避免因醫生工作繁忙,會出現病歷不規范的情況。
通過修正病歷,AI系統會結合患者病情推出可能的診斷,同時給出下一步病情鑒別的建議。

而且, 點擊診斷推理路徑,可以清晰直觀呈現「循證推理」的邏輯,可以幫助醫生拓展診療思路。
![]()
當然,醫生還可以參考推薦的內容,進行下一步的輔助問診,比如輸入「突眼」癥狀。由此,甲亢的病癥可能性又增加了。
![]()
![]()
![]()
左右滑動查看
除此之外,升級的中醫輔診,結合權威的中醫知識,根據患者癥狀,進行了辯證的論治。
如今,「智醫助理」已覆蓋全國801個區縣,累計提供11億次輔助診斷。
而且,星火醫療大模型專科AI能力,已經達到了等級醫院「主任級醫師」的水平。
![]()
在AI的加持下,人機協同已大幅提升醫生診療服務能力,其中專科診斷合理率提升至96%,跨科室診斷提升至91%,病例書寫時間減少一半。
![]()
同時,訊飛現場還發布了「智醫助理醫院版1.0」,覆蓋了輔助診療、輔助會診等多方面能力。
人人可用的曉醫App同時升級,結合健康檔案,提供用戶及家人更專業、更個性化的健康洞察和管理建議,讓看病問診真實走向普惠化。
你的下一個副駕,會「讀心」
接下來,如何把LLM集成到汽車中,讓它在出行的過程中更懂你呢?
當你在車上冷到發抖時,它會秒開座椅加熱、暖風空調;發現水坑擋路,它會立刻提醒「右側有積水」;甚至開車不斷眨眼的細節,它都能夠感知,還貼心給出用藥建議,下單滴眼液......
這樣的AI,就像是把心靈感應功能刻在了DNA中。
它就是「星火智能座艙2.0」,做到了懂你、懂車、懂環境,這樣的汽車才是真正的未來。
![]()
打工人終極外掛
還有在工作場景中,打工人需要的不只是一個會寫調研報告的LLM,而是一個懂你崗位、風格、資料、同事的AI。
訊飛智能辦公本,就是典型的代表。
![]()
現場,劉慶峰一邊「布置作業」,辦公本一邊錄音記錄,還能隨時做筆記。
同時,手寫紀要還可以和AI紀要深度融合,手寫的會議要點會在最后生成的紀要中強化展現,并且,所有的紀要內容可精準回溯至原始錄音,核對更高效。
說話結束后,它會幫你自動轉錄,生成總結摘要,而且還會根據聲音,備注出每個說話人的名字。
它還能準確提取待辦事項,打工人直接加入日程,方便后續跟進了。

小彩蛋
最后,訊飛現場還放出了一個小彩蛋——AI星朋友。
每一個人,都可以擁有自己的「AI朋友」。它可以成為你的情緒樹洞,也可以是你的人生隊友。
AI星朋友有超160種人設模型定制,還能通過「自學習情感模型」記憶個人偏好,聊的越久就越懂你。
現在微信搜索“AI星朋友”小程序,即可創建懂你的聲音、接聽專屬的溫暖。
開源首個原生支持RAP的智能體平臺
一直以來,訊飛堅信,只有整個生態的繁榮,才會有人工智能的大未來。
過去一年,開放平臺的開發者增長了200多萬,其中增長最快的是智能硬件開發者、大模型企業開發者。
此外,新型智能體的開發,有一半來自非技術領域。
![]()
AI走向落地,智能體是一個不可多得最佳應用案例。而這一年,我們也見證了諸多智能體AI的誕生。
發布會現場,訊飛面向開發者,正式發布首個原生RPA智能體平臺——Astron RPA。
Agent+RPA可以跨越應用鴻溝,將「大腦」和「手腳」結合,跨越AI應用鴻溝;還可以有效打通企業內缺少接口的IT系統和賬號體系。
![]()
軟硬一體之爭,誰是破局者?
過去一年,AI發展速度之快,已超越了歷史上任何一次工業或技術革命。
![]()
如今,算法、算力、數據已成為基礎設施。接下來,誰能讓AI真正進入物理世界,誰就能定義智能的未來。
因為,只有AI落地,才是兌現紅利的起點。過去幾年,AI巨頭們幾乎都在同一維度上狂奔。
OpenAI用GPT系大模型掀起了認知智能革命,谷歌又用Gemini試圖重塑多模態范式。
還有Anthropic、Meta、xAI、微軟等玩家,各自拉起了模型矩陣。
它們不僅坐擁巨量的算力資源,還在算法創新上不斷堆疊,這種路線的成就毋庸置疑——
ChatGPT、Gemini、Grok、Claude大模型,都代表了當前人機交互的新高度。
然而,在強大的大模型,離真實場景往往隔著一層「玻璃」,即落地的核心:AI能否真正兌現紅利。
每一種場景,都在呼喚一種更深層次的多模態理解與交互。
要實現這一點,任何純軟件的方案——無論是手機App,還是云端模擬,都只是隔靴搔癢。
實際上,硅谷巨頭們早已意識到了這一點,走向軟硬一體,能否讓技術「活」在用戶手里才是密鑰。
就以谷歌為例,其Gemini Nano已下沉到全新Pixel 10系「全家桶」。
不論是離線翻譯、AI摘要總結,還是實時生成圖像、智能拍照等場景,一部手機+端側模型即可完成。
他們還專為模型,量身打造了Tensor芯片,直接將AI能力深度嵌入芯片和傳感系統中,做到真正的原生AI體驗。

微軟PC全球生態覆蓋超十幾億,其打造的AI助手Copilot,植入Windows系統提供了更智能的體驗。
再比如,OpenAI多次爆出重組機器人團隊,與博通聯手定制AI加速器;特斯拉以物理世界為基礎,將Grok植入擎天柱、自動駕駛「大腦」......
這些實踐足以說明,沒有軟硬一體,智能永遠懸在空中。
然而,放眼全世界,很多企業理解的軟硬一體,更多地停留在了「堆疊層面」——
硬件是承載,軟件是驅動,兩者拼接即可。
但真正的軟硬一體,是一種「認知協同」的系統。這,又該如何理解?
首先,模型算法必須理解硬件的輸入特性,比如聲音、圖像、傳感信號等。其次,硬件架構也要反向適配AI算法的反饋機制,包括延遲、功耗、推理路徑。
更重要的是,系統還可以在多模態下自洽運行。
這也恰恰是大多數公司面臨的瓶頸。它們在AI算法上極強,但在硬件生態上碎片化。
而傳統硬件巨頭,反之在算法層面缺乏統一的認知引擎。
AI國家隊,全棧打通
在AI兌現紅利的競賽中,中國隊的機會正在于體系化的整合能力。科大訊飛的路徑,尤其具有代表性。
它并沒有只押注算法,而是構建了一條從算力,到模型,再到硬件、多場景應用的全棧閉環。
作為認知底座,訊飛星火X1.5全新升級,在多語言、多模態等能力上持續迭代。它是唯一基于全國產算力訓練的主流大模型。
還有自研的麥克風陣列、多模態模組等,構成了感知層的基礎。
在聲學層面上,通過麥克風陣列+視覺攝像頭融合,在10米遠、20分貝噪音下實現95%識別率,而行業平均只有20%。
這意味著,在課堂、汽車座艙、展會、工程等多種環境中,AI可以聽清每一句話。
而終端設備,比如AI學習機、AI黑板、翻譯耳機等矩陣,形成了「AI具身接口」。只有軟硬一體支撐的多模態交互,才是AI融入真實世界的物理基礎。
以AI黑板為例,訊飛將聲學與視覺深度融合,重構教室光路,讓「座座皆C位」。
其配備的24通道AI揚聲器陣列,讓教室前后聲音差別只有3分貝,即便學生坐在最后排也能聽得清楚。
![]()
軟硬一體,更是訊飛構建行業壁壘的引擎。每一個設備,都是AI與真實世界的傳感器。它可以讓訊飛以行業為半徑、以數據為飛輪持續迭代。
在教育領域,AI批閱機的「錯因分析」體系,精確到4000+標簽,準確率超普通教師,真正讓「AI懂學生」。
在翻譯領域,AI翻譯機+耳機與聽見APP聯動,做到了2秒及時響應,復雜噪音下識別準確率破紀錄。
這一切,都是訊飛的核心競爭邏輯,是別人難以復刻的模式。
因為,要在軟硬一體上做到訊飛的深度,還需要三件事同時成立:
全棧自研體系:從麥克風陣列,到算力平臺、算法框架等,全國產可控;
跨領域團隊協同:硬件部門和研究院團隊需要共線開發;
行業縱深:教育、翻譯、醫療、汽車等行業連續多年落地深耕。
只有這三點疊加,才是訊飛壁壘的壁壘。
當別的AI還在對話框里回答問題,訊飛的AI,已經能在嘈雜環境中聽清你、在屏幕前讀懂你,并在世界行動起來。
他們正用自己的方式證明,AI應該是讓世界真正「被理解」的技術。
當AI有了身體,有了溫度,我們離那個真正「懂人」的智能時代,又近了一點。
參考資料:YXH
https://gitee.com/iflytek/astron-rpa
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.