![]()
大語言模型(LLM)的「煉丹師」們,或許都曾面臨一個共同的困擾:為不同任務、不同模型手動調整解碼超參數(如 temperature 和 top-p)。這個過程不僅耗時耗力,而且一旦模型或任務發生變化,歷史經驗便瞬間失效,一切又得從頭再來。
這種繁瑣的試錯過程,在許多研發團隊的日常溝通中屢見不鮮,正如下圖所展示的那樣:
![]()
圖 1:研發人員手動調整解碼參數的日常。
一個靈魂拷問隨之而來:為何不能讓模型自己學會如何解碼,從而實現真正的「端到端」?
事實上,各大模型廠商的 API 文檔也印證了這一難題。以 DeepSeek 為例,其官方文檔明確建議針對不同場景設置截然不同的 temperature 值,這使得單一的靜態參數設置顯得捉襟見肘。
![]()
圖 2:不同任務需要不同的解碼參數,這使得靜態設置難以應對復雜多變的現實需求。
近日,由騰訊 AI Lab 的王琰研究員及其團隊領銜,聯合香港中文大學(深圳)唐曉瑩教授及其博士生王志超給出了一個優雅的答案。他們推出了名為 AutoDeco 的全新架構,旨在徹底終結手動解碼的「手工作坊」時代。這項研究《The End of Manual Decoding: Towards Truly End-to-End Language Models》,通過讓模型動態預測并控制自身的解碼參數,向著真正端到端的語言生成邁出了關鍵一步。
![]()
- 論文鏈接: https://huggingface.co/papers/2510.26697
- 代碼鏈接: https://github.com/Zacks917/AutoDeco
- 模型鏈接: https://huggingface.co/collections/Jadeislaw/autodeco
![]()
圖 3:AutoDeco 位居 Hugging Face Daily Papers 榜首
當前,盡管 LLM 本身已高度集成,但其生成過程的「最后一公里」—— 解碼,仍然是一個獨立于模型之外的、不可微的僵硬環節。研究團隊形象地將其比作「手動擋變速箱」:無論引擎(LLM)多么強大,換擋(調參)依然依賴人工操作。
AutoDeco 的核心思想,就是為 LLM 裝上「自動擋」。它通過在標準 Transformer 架構中引入兩個超輕量的預測頭,讓模型在生成每一個 token 時,都能根據當前的上下文信息,動態地預測出最適合下一步生成的 temperature 和 top-p 值。其架構如下圖所示:
![]()
圖 4:AutoDeco(上)與傳統手動解碼(下)的對比。AutoDeco 將解碼參數的預測無縫集成到模型的前向傳播中,實現了動態自調節。
核心挑戰與技術突破:如何訓練一個沒有「標準答案」的任務?
設想很美好,然而,一個關鍵的挑戰擺在研究團隊面前:如何訓練這些預測頭?在訓練數據中,并不存在每一時刻「正確」的溫度和 top-p 標簽,這使得監督學習無從談起。
為此,團隊提出了一種創新的、完全端到端的訓練策略。他們設計了一種新穎的可微分「軟性 top-p」(soft top-p)機制,巧妙地替代了傳統 top-p 采樣中不可微的「硬截斷」操作。該方法分為三步:
![]()
![]()
圖 5:可微分的 soft top-p(橙色線)與傳統的 hard top-p (綠色線)對比。Soft top-p 的平滑特性打通了從最終損失到解碼參數預測頭的梯度路徑。
這一設計的巧妙之處在于,它使得從最終的「下一個詞預測」損失到解碼參數預測頭的梯度能夠順暢回傳。如此一來,模型便可以在標準的 Next Token Prediction 任務中,通過優化最終生成結果來「倒逼」自己學會如何動態調整解碼策略,整個過程無需任何額外的標注數據。
AutoDeco 的驚人表現:三大亮點
通過在 Llama、Qwen、Deepseek 等多個主流模型家族上的廣泛實驗,AutoDeco 展現了其強大的能力:
- 卓越的性能與泛化能力
實驗結果表明,AutoDeco 不僅穩定超越了傳統的 Greedy Search 和 Default Sampling 等基線方法,其性能甚至能媲美、乃至超越了利用測試集進行精細調優的「神諭」基線(oracle-tuned baseline)。
![]()
![]()
圖 6:AutoDeco 在多個數學和通用任務 benchmark 上均取得了 SOTA 性能,展現了其強大的泛化能力。
- 極致的效率與易用性
AutoDeco 的預測頭設計極為輕量,其帶來的額外推理延遲通常僅為 1.7%,內存開銷也幾乎可以忽略不計。對于開發者而言,接入 AutoDeco 模型僅需修改幾行代碼,即可享受「免費」的性能提升。
- 「言出法隨」:開創性的自然語言控制能力
研究中最令人興奮的發現之一,是 AutoDeco 涌現出的一種「通過自然語言控制解碼」的能力。用戶可以直接在 prompt 中通過自然語言下達指令,如「我希望答案更有創意」,模型便能「聽懂」并自主地調高其預測的 temperature 和 top-p 值,整個過程清晰可見。
![]()
圖 7:在不同指令下,AutoDeco 預測的 T/P 值變化。從左至右分別為:基線、高創造力指令(T/P 值自發升高)、高確定性指令(T/P 值自發降低)。
當然,作者坦言這種能力還不夠完善,還做不到非常精準的控制。他們猜測實現細粒度、高精度的自然語言控制解碼無法僅僅能通過微調 AutoDeco 模塊做到,而是需要全參微調模型,這也被他們列為了 Future work 的重點。因此,作者沒有放出帶有自然語言控制能力的 AutoDeco heads 權重。
AutoDeco 在發布后迅速吸引全球 AI 社區的關注,在 Twitter 等社交平臺上引發了頂尖學者、開發者和企業家的廣泛熱議和高度評價。
![]()
圖 8:大模型社區對 AutoDeco 的廣泛熱議和高度評價。
目前,該團隊已將論文、代碼以及在多個主流模型上訓練好的 AutoDeco heads 全面開源,包含適配于 Deepseek V3.1、Qwen3-235B、GPT-OSS-120B 等生產級大模型的版本。正如研究人員在分享中所說,這項工作旨在將研究者和開發者從繁瑣的調參工作中解放出來,共同邁向一個更智能、更自動化的 AGI 新時代。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.