網易首頁 > 網易號 > 正文申請入駐

HF日趨榜一！真端到端模型AutoDeco終結手動調參解碼

2025-11-04 11:41:00　來源: 機器之心Pro

北京舉報

分享至

大語言模型（LLM）的「煉丹師」們，或許都曾面臨一個共同的困擾：為不同任務、不同模型手動調整解碼超參數（如 temperature 和 top-p）。這個過程不僅耗時耗力，而且一旦模型或任務發生變化，歷史經驗便瞬間失效，一切又得從頭再來。

這種繁瑣的試錯過程，在許多研發團隊的日常溝通中屢見不鮮，正如下圖所展示的那樣：

圖 1：研發人員手動調整解碼參數的日常。

一個靈魂拷問隨之而來：為何不能讓模型自己學會如何解碼，從而實現真正的「端到端」？

事實上，各大模型廠商的 API 文檔也印證了這一難題。以 DeepSeek 為例，其官方文檔明確建議針對不同場景設置截然不同的 temperature 值，這使得單一的靜態參數設置顯得捉襟見肘。

圖 2：不同任務需要不同的解碼參數，這使得靜態設置難以應對復雜多變的現實需求。

近日，由騰訊 AI Lab 的王琰研究員及其團隊領銜，聯合香港中文大學（深圳）唐曉瑩教授及其博士生王志超給出了一個優雅的答案。他們推出了名為 AutoDeco 的全新架構，旨在徹底終結手動解碼的「手工作坊」時代。這項研究《The End of Manual Decoding: Towards Truly End-to-End Language Models》，通過讓模型動態預測并控制自身的解碼參數，向著真正端到端的語言生成邁出了關鍵一步。

論文鏈接: https://huggingface.co/papers/2510.26697
代碼鏈接: https://github.com/Zacks917/AutoDeco
模型鏈接: https://huggingface.co/collections/Jadeislaw/autodeco

圖 3：AutoDeco 位居 Hugging Face Daily Papers 榜首

當前，盡管 LLM 本身已高度集成，但其生成過程的「最后一公里」—— 解碼，仍然是一個獨立于模型之外的、不可微的僵硬環節。研究團隊形象地將其比作「手動擋變速箱」：無論引擎（LLM）多么強大，換擋（調參）依然依賴人工操作。

AutoDeco 的核心思想，就是為 LLM 裝上「自動擋」。它通過在標準 Transformer 架構中引入兩個超輕量的預測頭，讓模型在生成每一個 token 時，都能根據當前的上下文信息，動態地預測出最適合下一步生成的 temperature 和 top-p 值。其架構如下圖所示：

圖 4：AutoDeco（上）與傳統手動解碼（下）的對比。AutoDeco 將解碼參數的預測無縫集成到模型的前向傳播中，實現了動態自調節。

核心挑戰與技術突破：如何訓練一個沒有「標準答案」的任務？

設想很美好，然而，一個關鍵的挑戰擺在研究團隊面前：如何訓練這些預測頭？在訓練數據中，并不存在每一時刻「正確」的溫度和 top-p 標簽，這使得監督學習無從談起。

為此，團隊提出了一種創新的、完全端到端的訓練策略。他們設計了一種新穎的可微分「軟性 top-p」（soft top-p）機制，巧妙地替代了傳統 top-p 采樣中不可微的「硬截斷」操作。該方法分為三步：

圖 5：可微分的 soft top-p（橙色線）與傳統的 hard top-p (綠色線)對比。Soft top-p 的平滑特性打通了從最終損失到解碼參數預測頭的梯度路徑。

這一設計的巧妙之處在于，它使得從最終的「下一個詞預測」損失到解碼參數預測頭的梯度能夠順暢回傳。如此一來，模型便可以在標準的 Next Token Prediction 任務中，通過優化最終生成結果來「倒逼」自己學會如何動態調整解碼策略，整個過程無需任何額外的標注數據。

AutoDeco 的驚人表現：三大亮點

通過在 Llama、Qwen、Deepseek 等多個主流模型家族上的廣泛實驗，AutoDeco 展現了其強大的能力：

卓越的性能與泛化能力

實驗結果表明，AutoDeco 不僅穩定超越了傳統的 Greedy Search 和 Default Sampling 等基線方法，其性能甚至能媲美、乃至超越了利用測試集進行精細調優的「神諭」基線（oracle-tuned baseline）。

圖 6：AutoDeco 在多個數學和通用任務 benchmark 上均取得了 SOTA 性能，展現了其強大的泛化能力。

極致的效率與易用性

AutoDeco 的預測頭設計極為輕量，其帶來的額外推理延遲通常僅為 1.7%，內存開銷也幾乎可以忽略不計。對于開發者而言，接入 AutoDeco 模型僅需修改幾行代碼，即可享受「免費」的性能提升。

「言出法隨」：開創性的自然語言控制能力

研究中最令人興奮的發現之一，是 AutoDeco 涌現出的一種「通過自然語言控制解碼」的能力。用戶可以直接在 prompt 中通過自然語言下達指令，如「我希望答案更有創意」，模型便能「聽懂」并自主地調高其預測的 temperature 和 top-p 值，整個過程清晰可見。

圖 7：在不同指令下，AutoDeco 預測的 T/P 值變化。從左至右分別為：基線、高創造力指令（T/P 值自發升高）、高確定性指令（T/P 值自發降低）。

當然，作者坦言這種能力還不夠完善，還做不到非常精準的控制。他們猜測實現細粒度、高精度的自然語言控制解碼無法僅僅能通過微調 AutoDeco 模塊做到，而是需要全參微調模型，這也被他們列為了 Future work 的重點。因此，作者沒有放出帶有自然語言控制能力的 AutoDeco heads 權重。

AutoDeco 在發布后迅速吸引全球 AI 社區的關注，在 Twitter 等社交平臺上引發了頂尖學者、開發者和企業家的廣泛熱議和高度評價。

圖 8：大模型社區對 AutoDeco 的廣泛熱議和高度評價。

目前，該團隊已將論文、代碼以及在多個主流模型上訓練好的 AutoDeco heads 全面開源，包含適配于 Deepseek V3.1、Qwen3-235B、GPT-OSS-120B 等生產級大模型的版本。正如研究人員在分享中所說，這項工作旨在將研究者和開發者從繁瑣的調參工作中解放出來，共同邁向一個更智能、更自動化的 AGI 新時代。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.