<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      德國團隊基于DeepSeek打造R1T2模型,速度比R1-0528快200%

      0
      分享至

      DeepSeek-R2 姍姍來遲,業內人士似乎等不及了?這不,德國 TNG Technology Consulting GmbH 公司(下稱 TNG)基于 DeepSeek R1-0528 新版本,推出了一款速度提升 200% 的 DeepSeek-TNG R1T2 Chimera 模型(下稱 R1T2)。R1T2 是一款擁有 6710 億參數的開源混合模型,也是 TNG 團隊 Chimera 大模型系列中的最新型號。DeepSeek-R1-0528 因其擴展的思維鏈推理而傾向于給出長篇大論的詳細回答,而本次 R1T2 的設計更加簡潔,它在使用明顯更少的詞匯的同時,也能給出同樣智能的回答。另外,R1T2 再次使用了由 TNG 團隊提出的集合專家(AoE,Assembly-of-Experts)方法。


      (來源:arXiv)

      值得注意的是,TNG 的聯合創始人亨利克·克萊格斯(Henrik Klagges)是相關論文的第一作者,領英頁面顯示他聯合創辦 TNG 已有 24 年之久。


      圖 | 相關論文(來源:arXiv)

      1994 年,克萊格斯從英國牛津大學畢業后,于 2001 年創辦了 TNG。目前,該公司擁有 917 名員工,99.9% 的員工為學術人員,并且超過 50% 的員工擁有數學、物理和計算機科學的博士學位。也就是說,作為一個基于 DeepSeek 做變體模型的團隊,TNG 并不是一個無名小卒。


      (來源:領英)

      此前,在相關實驗結果以及混合專家(MoE,Mixture of Experts)模塊化結構的啟發之下,TNG 團隊將 DeepSeek-V3-0324 和 DeepSeek-R1 的路由專家張量進行合并,由此打造了 DeepSeek-R1T-Chimera 模型(下稱 R1T)。而本次推出的 R1T2 在保留 DeepSeek-R1 推理性能的同時,在效率和速度方面實現了顯著提升。在不損失或幾乎不損失智能的情況下顯著降低了冗余度,這意味著它能產生更短的響應,從而能夠直接轉化為更快的推理速度和更低的計算成本。

      作為 R1T 的后續版本,R1T2 還引入了一種新的“Tri-Mind”配置,該配置集成了三個父模型:DeepSeek-R1-0528、DeepSeek-R1 和 DeepSeek-V3-0324。

      據介紹,R1T2 是在沒有進一步微調或重新訓練的情況下構建的,它繼承了 DeepSeek-R1-0528 的推理能力、DeepSeek-R1 的結構化思維模式以及 DeepSeek-V3-0324 的簡潔指令導向的行為特性,因此是一個更高效、更強大的模型。

      AI 開發者社區對此反應也比較積極,Hugging Face 的高級領導 Vaibhav(VB)Srivastav 在 X 上寫道:“太棒了!DeepSeek R1T2——比 R1-0528 快 200%,比 R1 快 20%。在 GPQA 和 AIME 24 數據集上的表現明顯優于 R1,并采用 DS V3、R1 和 R1-0528 組合打造了集合專家架構,而且它使用 MIT 許可協議,目前已在 Hugging Face 上開放。”


      (來源:X)

      TNG 團隊提供的基準比較結果顯示,在 AIME-24、AIME-25 和 GPQA-Diamond 測試集的評估下,R1T2 的推理性能達到了其最智能父模型 DeepSeek-R1-0528 的 90% 至 92%。

      與此同時,TNG 團隊并不側重于原始處理時間或每秒處理的 token 數量,而是以每個答案的輸出 token 數量來衡量“速度”,他們將這視為一種能夠同時反映成本和延遲的實用指標。R1T2 生成響應所需的 token 量大約為 DeepSeek-R1-0528 的 40%,這意味著輸出長度減少了 60%,從而能夠直接減少推理時間和計算負載,進而能使響應速度提高 200%。與原始的 DeepSeek-R1 相比,R1T2 的平均簡潔度也提高了約 20%,這為高通量或成本敏感的部署帶來了顯著的效率提升。并且,這種高效性并未以犧牲智能為代價。正如 TNG 團隊的基準圖表所展示的,R1T2 在“智能 vs. 輸出成本”曲線上處于一個理想區域。它在保持推理質量的同時能夠大幅減少冗余輸出,這一特性對于那些對推理速度、吞吐率和成本都有嚴格要求的企業級應用至關重要。


      (來源:arXiv)



      集合專家與混合專家有何不同?

      如前所述,TNG 團隊曾提出了集合專家(AoE,Assembly-of-Experts)方法,這是一種通過有選擇地合并多個預訓練模型的權重張量(內部參數)來構建大模型的技術。

      很多人對于混合專家(MoE,Mixture-of-Experts)并不陌生,MoE 是一種架構設計,其中不同的組件或“專家”會根據輸入有條件地被激活。對于典型的 MoE 大模型比如 DeepSeek-V3 和 Mixtral來說,在任何給定 token 的前向傳遞過程中,只有模型專家層的一個子集處于活動狀態(例如,256 個中的 8 個)。這使得超大規模模型在實現更高參數量和更強專業化的同時,仍能保持可控的推理成本,因為每個 token 只需激活網絡中的一小部分子模塊。

      在預訓練期間,大模型計算一個 8 位權重需要 10^13 至 10^15 次浮點運算(FLOPs,Floating-Point Operations),不僅成本極高而且效率低下。正是為了更好地利用對預訓練模型的大量投資,TNG 團隊開發了 AoE。AoE 是一種模型融合技術,而非一種架構。它通過有選擇地插值多個預訓練的 MoE 模型的權重張量,以用于從這些模型中創建一個新模型。

      該方法能夠在線性時間內創建現有 MoE 父模型的高效子模型變體。模型權重張量會被單獨進行插值處理,從而能夠增強或抑制父模型的語義特征。通過改變從父模型中提取的權重比例,TNG 團隊觀察到 AoE 子模型的一些特性會逐漸變化,而其他行為特征則會發生急劇轉變。

      另據悉,AoE 中的“專家”指的是正在合并的模型組件,通常是 MoE 層中路由的專家張量,而非在運行時動態激活的專家。TNG 團隊對于 AoE 的實現主要側重于合并路由專家張量,這是模型中負責專門推理的部分,同時通常會保留來自 DeepSeek-V3-0324 等更快模型中更高效的共享層和注意力層。這種方法使得 TNG 團隊生成的 R1T 和 R1T2 這一系列 Chimera 模型能夠繼承推理能力,同時避免了最強父模型的冗長性或延遲問題。


      (來源:arXiv)



      歐洲企業或面臨使用受限

      對于 CTO、AI 平臺所有者、工程主管和 IT 采購團隊而言,R1T2 帶來了切實的益處和戰略選擇:

      其一,推理成本更低:由于每項任務的輸出 token 更少,R1T2 減少了 GPU 時間和能耗,直接節省了基礎設施成本,這在高吞吐量或實時環境中尤為重要。

      其二,高推理質量無冗余:R1T2 保留了 DeepSeek-R1-0528 等頂級模型的大部分推理能力,但沒有它們冗長的缺點。這非常適合數學、編程、邏輯等結構化任務,在這些任務中,簡潔的答案更受歡迎。

      其三,開源且可修改:MIT 許可證允許完全的部署控制和定制,支持在受監管環境或隔離環境中進行私有托管、模型對齊或進一步訓練。

      其四,新興的模塊化:AoE 方法預示著一個模型將以模塊化方式構建的未來。在這種未來場景中,企業無需從頭開始重新訓練,而是可以通過重組現有模型的優勢來組裝出專門的變體。

      需要注意的是,R1T2 依賴函數調用、工具使用或高級代理編排的企業應注意當前的局限性,盡管未來的 Chimera 更新可能會彌補這些不足。

      目前,TNG 團隊已通過 OpenRouter 和 Chutes 等平臺提供了早期的 Chimera 變體,這些平臺每天處理數十億個 token。而 R1T2 的發布標志著這一公開可用性工作的進一步發展。

      TNG 團隊指出,盡管該模型非常適合通用推理任務,但由于繼承自 DeepSeek-R1 系列的限制,目前不建議將其用于需要函數調用或工具使用的場景。

      作為一家歐洲公司,TNG 團隊還建議歐洲用戶評估其是否符合將于 2025 年 8 月 2 日生效的《歐盟 AI 法案》的規定。在歐盟運營的企業應審查相關規定,若無法滿足要求,則應考慮在該日期后停止使用該模型。

      然而,在美國國內運營并為美國用戶或其他國家用戶提供服務的美國公司,不受《歐盟 AI 法案》條款的約束,這將使其在使用和部署這一免費、快速的開源推理模型時擁有相當大的靈活性。但是,如果他們為歐盟用戶提供服務,則《歐盟 AI 法案》中的一些條款仍然適用。

      總的來說,之前是國內開發者基于國外模型做變體研究,現在逐漸開始反過來,這也映照了中國科技從跟跑到并肩跑,再到逐漸能起到一定引領作用的大趨勢。

      參考資料:

      相關論文:https://arxiv.org/pdf/2506.14794

      Hugging Face:https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera

      https://x.com/reach_vb/status/1940536684061643239

      https://www.linkedin.com/in/vaibhavs10/

      運營/排版:何晨龍

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      你聽過最炸裂的八卦是什么?網友:慎看,否則看完都要洗眼睛哦

      你聽過最炸裂的八卦是什么?網友:慎看,否則看完都要洗眼睛哦

      帶你感受人間冷暖
      2025-11-04 00:05:11
      學醫后才知道,保護心血管最好的運動,不是慢跑快走,而是這個

      學醫后才知道,保護心血管最好的運動,不是慢跑快走,而是這個

      普陀動物世界
      2025-11-04 08:27:58
      朝鮮為他舉行國葬,曾任國家元首逾20年

      朝鮮為他舉行國葬,曾任國家元首逾20年

      中國新聞周刊
      2025-11-04 20:52:03
      董卿的現狀,老父親后悔自責:她嫁密春雷,是我沒攔住

      董卿的現狀,老父親后悔自責:她嫁密春雷,是我沒攔住

      君好伴讀
      2025-09-22 12:49:18
      解放軍武統僅有8%的可能獲勝?港媒:電子戰和高超彈可摧毀美航母

      解放軍武統僅有8%的可能獲勝?港媒:電子戰和高超彈可摧毀美航母

      朔方瞭望
      2025-11-05 17:21:10
      今天,A股調整到3923反彈,不出所料,周四很可能這樣走

      今天,A股調整到3923反彈,不出所料,周四很可能這樣走

      花心電影
      2025-11-05 14:59:43
      果敢四大家族殘害中國人14年,因一神秘女子失蹤遭同盟軍清剿

      果敢四大家族殘害中國人14年,因一神秘女子失蹤遭同盟軍清剿

      真實故事匯
      2024-10-05 11:35:24
      火箭沖擊5連勝!全隊士氣高漲,2人出戰成疑,杜蘭特漸入佳境

      火箭沖擊5連勝!全隊士氣高漲,2人出戰成疑,杜蘭特漸入佳境

      體壇小李
      2025-11-05 19:13:05
      一位資深地產大佬對于萬科現狀的解讀(1)

      一位資深地產大佬對于萬科現狀的解讀(1)

      科學發掘
      2025-11-05 11:47:58
      突發!這個板塊,大面積漲停!重磅消息傳來!

      突發!這個板塊,大面積漲停!重磅消息傳來!

      證券時報
      2025-11-05 16:10:45
      日本有森保一 國足有邵佳一!中國足球有病亂投醫 西海岸五虎有戲

      日本有森保一 國足有邵佳一!中國足球有病亂投醫 西海岸五虎有戲

      刀鋒體育
      2025-11-05 18:16:02
      你無意中看見哪些不可見人的事?網友:成年人的世界都這么污嗎

      你無意中看見哪些不可見人的事?網友:成年人的世界都這么污嗎

      帶你感受人間冷暖
      2025-11-04 00:15:08
      沒想到!剛種草于和偉羽絨外套,居然漲了300塊!于和偉都傻眼了

      沒想到!剛種草于和偉羽絨外套,居然漲了300塊!于和偉都傻眼了

      樂悠悠娛樂
      2025-11-05 13:22:19
      70歲大爺和30歲保姆生下兒子,親子鑒定后,大爺卻被自己兒女氣死

      70歲大爺和30歲保姆生下兒子,親子鑒定后,大爺卻被自己兒女氣死

      紙鳶奇譚
      2025-09-08 09:31:42
      首臺“京東汽車”下線,超8成用戶期待價格低于10萬

      首臺“京東汽車”下線,超8成用戶期待價格低于10萬

      藍鯨新聞
      2025-11-05 12:45:03
      斯諾克戰報!吳宜澤0-4到6-4,送走NO.1,趙心童大勝,會師塞爾比

      斯諾克戰報!吳宜澤0-4到6-4,送走NO.1,趙心童大勝,會師塞爾比

      劉姚堯的文字城堡
      2025-11-05 18:56:28
      被免職7天,吳玉培官宣落馬

      被免職7天,吳玉培官宣落馬

      新京報政事兒
      2025-11-05 10:51:51
      山姆被罵上熱搜!800萬會員抵制阿里高管,集體喊退卡

      山姆被罵上熱搜!800萬會員抵制阿里高管,集體喊退卡

      吃瓜局
      2025-11-05 15:22:55
      斷供的人多了,銀行都開始急了

      斷供的人多了,銀行都開始急了

      深藍夜讀
      2025-11-05 10:04:34
      白發越多,患癌越少?Nature子刊:壓力下的頭發變白,能預防癌癥,是身體啟動的“自我保衛戰”

      白發越多,患癌越少?Nature子刊:壓力下的頭發變白,能預防癌癥,是身體啟動的“自我保衛戰”

      梅斯醫學
      2025-11-05 07:52:50
      2025-11-05 19:36:49
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      15821文章數 514266關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      楊受成名下英皇宮殿停運 曾以大堂鋪滿78公斤黃金聞名

      頭條要聞

      楊受成名下英皇宮殿停運 曾以大堂鋪滿78公斤黃金聞名

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      中方官宣!對美關稅,調整!

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      教育
      數碼
      時尚
      旅游
      家居

      教育要聞

      中美學校的差距有多大?真實的美國學校是什么樣?

      數碼要聞

      雷克沙 TouchLock 移動 SSD 上市:NFC + ASE 雙加密,1TB 899 元

      壞了,看到劇本殺鼻祖了!

      旅游要聞

      出發!用舞蹈的方式打開云南旅行

      家居要聞

      別樣府院 暢享詩意生活

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 通海县| 亚洲日韩成人无码不卡网站| 亚洲少妇一区二区三区老| 国产天美传媒性色av| 成年女人免费碰碰视频| 一本久久a久久精品综合| 亚洲无线码一区二区三区| 国产一区二区三区自拍视频| 国产超高清麻豆精品传媒麻豆精品| 色九九视频| 制服丝袜美腿一区二区| 国产乱码精品一区二区三区中文| 亚洲乱色一区二区三区丝袜| 在线人成免费视频69国产| 中文字幕在线精品国产| 高清性欧美暴力猛交| 欧美嫩交一区二区三区| 人妻一区二区三区三区| 国产精品高清视亚洲乱码| 边添小泬边狠狠躁视频| 精品无码国产污污污免费| 精品人妻蜜臀一区二区三区| 中文字幕av无码免费一区| 日韩精品18禁一区二区| 成av免费大片黄在线观看| 国产福利永久在线视频无毒不卡 | 国产AV影片麻豆精品传媒| 99久久精品久久久久久清纯| 丁香婷婷综合激情五月色 | 成人免费ā片在线观看| 国产精品高清一区二区三区| 大香伊蕉在人线国产av| 国内少妇偷人精品免费| 国产福利酱国产一区二区| 无码内射中文字幕岛国片| 国产精品免费无遮挡无码永久视频 | 在线国产精品中文字幕| 亚洲日韩精品一区二区三区| 成人看的污污超级黄网站免费| 无码精品人妻一区二区三区中| 人妻系列中文字幕精品|