<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      告別復雜提示詞!螞蟻新方式讓AI自動理解你的個性化需求

      0
      分享至

      AntResearchNLP團隊 投稿
      量子位 | 公眾號 QbitAI

      相信大家都有這樣一個體驗。

      跟AI無論什么對話,感覺都是說空話套話。





      有時候為了讓AI懂自己,許多用戶甚至不得不學習復雜的“提示詞技巧”,手動編寫長長的指令,像是在給AI做“崗前培訓”。



      那么如何實現高情商AI?螞蟻通用人工智能研究中心自然語言處理實驗室提出了一個叫AlignXplore的方法——

      通過強化學習,AlignXplore能夠通過深度思考從用戶行為中歸納出他/她的偏好,并且這種對人類偏好的洞察可以隨著用戶行為的變化而動態更新。

      更有趣的是,當把歸納好的偏好描述遷移到一個下游對齊模型時,能夠讓這個模型的個性化對齊能力得到顯著提升。



      如何讓AI真正懂你?

      如何讓AI真正“懂”你?我們需要讓AI從一個“規則執行者”進化成一個“模式發現者”。

      這意味著,它要掌握一種被認為是人類智慧核心的能力——歸納推理(Inductive Reasoning)。


      △“千人一面”的對齊方式無法滿足用戶多樣的個性化需求,紅字藍

      事實上,AI早已對演繹推理(Deductive Reasoning)駕輕就熟,具備令人驚嘆的數學解題和代碼編寫能力。

      你給它一個確定的前提(如“求解二次方程 ax2+bx+c=0”)和一套不變的規則(求根公式),它就能通過一步步嚴密的邏輯推演,給出一個唯一、可驗證的正確答案。這是一個典型的“自上而下”(Top-Down)的過程:從普適的公理或規則出發,推導出一個具體的、必然的結論。 在這個世界里,沒有模糊地帶,只有對與錯。

      而歸納推理則完全相反,它是一個自下而上(Bottom-Up)的過程:它沒有預設的“個人說明書”。它的“線索”就是你的每一個行為: 你追問了什么問題,說明你關心什么;你跳過了哪個回答,說明你不喜歡什么風格;你對哪個笑話點了贊,暴露了你的幽默感。它的“任務”就是從這些海量的、碎片化的行為數據中,提煉出專屬于你的互動模式與偏好規律。通過歸納推理,AI有潛力成為你的“知心姐姐”,主動拼湊出一個完整的你。

      舉個例子,讓我們來扮演一次AI知心姐姐,看看它是如何通過兩次看似無關的對話,就精準捕捉到你的“潛臺詞”的:

      • 第一次交互:你問“什么是人工智能?它在商業和生活中是怎么用的?”。AI會立刻開始在幕后推理你的偏好:“你可能對AI技術有特別的興趣,但似乎更關心實際應用,也許是商業導向”。
      • 第二次交互:你想學習冥想,在兩個候選回答中,你選擇了提供具體步驟的那個,而不是闡述冥想哲學的回答。AI會立刻更新它對你偏好的理解:“你的偏好是獲取能解決眼前需求的、務實的指導,而不是理論探討。”

      這種漸進式的學習和優化,讓AI的“記憶”不再短暫。隨著一次次的交互,它會不斷收集新的線索,驗證并修正之前的假設,對你的“人物畫像”進行一次又一次的精修。最終,它不再是被動回答問題的機器,而是在主動地、持續地學習和理解你是誰。

      這,就是我們通向真正個性化AI的第一步。

      AlignXplore

      AlignXplore的訓練包括兩個階段。



      第一階段:冷啟動訓練(Cold-start Training)——拜師學藝

      研究團隊首先引入一個更強大的AI作為“導師模型”



      。這個導師會生成大量高質量的“教學案例”。對于每個用戶的行為信號集合





      會生成多組候選的推理鏈r和相應的偏好描述d利用獎勵函數R(r,d)進行篩選來獲取高質量數據



      。通過在



      上進行SFT,實現偏好歸納模型的冷啟動。



      其中



      代表可能存在的歷史偏好,而G是為每個實例生成的候選樣本數量。這里獎勵函數定義為:



      其中,



      是下游大語言模型R對回復的偏好打分函數。這個通用的獎勵框架可以被實例化為兩種具體的獎勵函數,用于模型的訓練與評估:

      1、



      (基于偏好判斷的獎勵)

      R作為一個偏好判斷模型,直接評估在給定推斷出的偏好d后 “





      更好”的概率,最大化與用戶真實偏好的一致性:





      提供了更穩定和有效的訓練信號,是AlignXplore在訓練和評估中采用的核心獎勵函數。

      2、



      (基于生成概率的獎勵)

      R作為一個回復生成模型,衡量在加入偏好描述d前后,模型生成較優回復



      與生成較差回復



      間的對數概率差值是否有提升:



      第二階段:強化學習(Reinforcement Learning)——實戰修行

      在這一階段,采用GRPO算法訓練,模型會針對用戶的行為,嘗試生成多種不同的推理路徑和偏好結論



      。隨后,系統會根據這些結論的準確性給予“獎勵”或“懲罰”。通過這種不斷的試錯和優化,模型學會了如何將初步的分析提煉成更精準、更具指導性的判斷。

      優化策略定義如下:



      流式偏好推斷機制

      AlignXplore模型支持流式偏好推斷機制,即不再需要反復回看用戶冗長的歷史記錄,而是像處理一條源源不斷的數據流一樣,實時、增量地更新對用戶的理解——就像它在之前的例子中發現用戶“務實導向”的風格一樣。

      這種“流式”設計帶來的好處是顯而易見的:

      首先,它大大提高了生成效率;

      其次,它極為靈活,當用戶從休閑模式切換到工作狀態時,它能迅速迭代出一個新的“工作版”偏好,而不是固執地用舊眼光看用戶。這才是真正能跟上用戶節奏的動態進化系統。

      實驗結果

      在域內測試集AlignX_test和域外測試集P-Soups上,AlignXplore模型在個性化對齊任務上取得了顯著的成功,相較于基座模型DeepSeek-R1-Distill-Qwen-7B平均提升了15.49%。


      △AlignXplore與各種推理/非推理模型在域內外數據集上的表現

      更重要的是,它展現了強大的綜合能力:

      高效性: 即使互動歷史變得非常長,流式推理機制也能保持穩定的響應速度和準確率,不會像傳統方法那樣需要每次編碼所有行為信號致使越來越慢。


      △隨著互動的進行,流式推理機制下的響應速度和準確率都保持穩定

      泛化能力:它不僅能處理特定的反饋數據,還能從用戶發布的帖子user-generated content (UGC)等不同形式的內容中學習,并且其推斷出的偏好也能成功地應用于與訓練時不同的下游模型,包括QwQ-32B、DeepSeek-R1-671B等。


      △泛化性實驗

      魯棒性:即使用戶的偏好發生改變甚至反轉,AlignXplore也能靈活適應,不會產生劇烈的效果波動。


      △即便反轉初始行為信號的偏好,流式推理機制也能讓模型靈活調整

      總結

      該工作第一作者為人大高瓴一年級博士生李嘉楠,目前在螞蟻實習;螞蟻通用人工智能研究中心自然語言處理實驗室關健、武威為共同第一作者、通訊作者。

      AlignXplore是大模型個性化路上的一個全新的嘗試。在SOTA結果的背后,這項研究其實有很多思考:

      • 在智力上限被一波又一波推高的當下,如何規模化訓練大模型“情商”是一個沒有得到足夠關注卻又十分重要的問題。畢竟誰會拒絕一個既聰明又有溫度的AI呢?
      • 深度思考下的長思維鏈是大模型智能能力的主要推動力。深度思考本身消耗巨大,那么如果只用來刷分,是不是有點浪費呢?相比于結果,推理過程中產生的知識是不是更有價值呢?AlignXplore可以看作是推理知識在用戶理解領域進行遷移應用的一個嘗試。畢竟相對于艱深的數學知識,用戶理解知識更容易被看懂,也更容易落地。
      • 如果客觀問題都很快會被AI解決,那么主觀問題該怎么辦呢?這個世界上到底是客觀問題多還是主觀問題多呢?無論如何,研究團隊認為個性化是通往主觀世界的一條重要通道,而AlignXplore是在這條通道上的一次大膽嘗試。期待未來有更多相關研究能夠涌現。

      — 完 —

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      賴清德下令臺軍備戰,蔣萬安亮明態度反對統一!臺海局勢一觸即發

      賴清德下令臺軍備戰,蔣萬安亮明態度反對統一!臺海局勢一觸即發

      剛哥說法365
      2025-11-04 10:32:20
      金價,直線拉升!

      金價,直線拉升!

      中國基金報
      2025-11-06 20:00:16
      京東集團收入差距斷崖:21年9516億,22年10462億,24年令人意外

      京東集團收入差距斷崖:21年9516億,22年10462億,24年令人意外

      南宗歷史
      2025-11-06 15:59:33
      我國歷史上,真正稱得上是“功高震主”的10大名將,分別都是誰?

      我國歷史上,真正稱得上是“功高震主”的10大名將,分別都是誰?

      掠影后有感
      2025-11-06 09:17:12
      閨蜜的公公年老力壯,看起來比我的老公還年輕,他還是個鰥夫

      閨蜜的公公年老力壯,看起來比我的老公還年輕,他還是個鰥夫

      神奇的錘子
      2024-09-22 10:01:47
      微博紅毯男星:羅晉咋腫成這,黃曉明眼神犀利,張凌赫帥的扎眼

      微博紅毯男星:羅晉咋腫成這,黃曉明眼神犀利,張凌赫帥的扎眼

      瓜汁橘長Dr
      2025-11-04 14:19:49
      中美雙線夾擊之際,卡尼再收噩耗,莫迪瞅準時機,送上致命一擊

      中美雙線夾擊之際,卡尼再收噩耗,莫迪瞅準時機,送上致命一擊

      薦史
      2025-11-05 18:09:44
      CBA最新消息!廣東宏遠第四外援確定,王薪凱離開新疆男籃

      CBA最新消息!廣東宏遠第四外援確定,王薪凱離開新疆男籃

      體壇瞎白話
      2025-11-06 08:12:32
      富商郭臺銘母親去世!不設靈不辦公祭,曾支持兒子娶小24歲曾馨瑩

      富商郭臺銘母親去世!不設靈不辦公祭,曾支持兒子娶小24歲曾馨瑩

      阿纂看事
      2025-11-06 14:13:03
      恭喜楊瀚森!開拓者官宣消息!彰顯球隊地位,有望融入隊伍

      恭喜楊瀚森!開拓者官宣消息!彰顯球隊地位,有望融入隊伍

      阿泰希特
      2025-11-06 12:02:08
      白百何氣炸!發文疑怒撕王傳君,40分鐘不到的戲卻搶走自己的榮譽

      白百何氣炸!發文疑怒撕王傳君,40分鐘不到的戲卻搶走自己的榮譽

      小徐講八卦
      2025-11-06 07:53:18
      趙少康“大罷免”亮票2次,遭臺北地檢署起訴:從重量刑

      趙少康“大罷免”亮票2次,遭臺北地檢署起訴:從重量刑

      海峽導報社
      2025-11-06 11:55:13
      美國玉石泛濫成災,為什么玉石只有在國內才值錢?

      美國玉石泛濫成災,為什么玉石只有在國內才值錢?

      西方尋史
      2025-10-23 15:52:26
      正式退出,崔永熙遺憾,離隊原因找到,廣東隊意外,杜鋒祝福

      正式退出,崔永熙遺憾,離隊原因找到,廣東隊意外,杜鋒祝福

      樂聊球
      2025-11-06 08:28:41
      一覺醒來天塌了?鹿哈官宣領證不到24小時,"惡心"的一幕就出現了

      一覺醒來天塌了?鹿哈官宣領證不到24小時,"惡心"的一幕就出現了

      好賢觀史記
      2025-11-06 12:18:03
      千萬別被廣東人給騙了,他們都是一群“表里不一的人”

      千萬別被廣東人給騙了,他們都是一群“表里不一的人”

      起喜電影
      2025-10-27 08:24:36
      51年曾澤生從朝鮮回國,見過主席之后回家吩咐妻子:北京不能待了

      51年曾澤生從朝鮮回國,見過主席之后回家吩咐妻子:北京不能待了

      鶴羽說個事
      2025-10-25 11:52:27
      別墅之殤!蟲蛇潮濕、巨額開銷壓垮業主,逃離豪宅,大平層逆襲?

      別墅之殤!蟲蛇潮濕、巨額開銷壓垮業主,逃離豪宅,大平層逆襲?

      詩意世界
      2025-11-06 11:23:23
      蔚來攜手可口可樂 32座品牌聯名換電站正式上線

      蔚來攜手可口可樂 32座品牌聯名換電站正式上線

      答答買車
      2025-11-06 20:04:01
      中國首例五胞胎終于長大了,父親因勞累去世,母親直言后悔生下他們

      中國首例五胞胎終于長大了,父親因勞累去世,母親直言后悔生下他們

      等風來育兒聯盟
      2025-08-01 12:21:35
      2025-11-06 23:23:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11638文章數 176326關注度
      往期回顧 全部

      科技要聞

      小鵬機器人里藏真人?何小鵬發一鏡到底視頻

      頭條要聞

      "迷你共享摩托"現身長沙 投放公司:車輛是共享電動車

      頭條要聞

      "迷你共享摩托"現身長沙 投放公司:車輛是共享電動車

      體育要聞

      送走兩位全明星,公牛成了東部第一

      娛樂要聞

      “黑料纏身”的白百何 誰給她的勇氣?

      財經要聞

      南銀法巴加速發展背后:資金饑渴癥待解

      汽車要聞

      是我眼花了么?怎么大猩猩都來參加新車發布了?

      態度原創

      藝術
      旅游
      教育
      時尚
      健康

      藝術要聞

      預定年度十佳!49歲的舒淇,殺瘋了

      旅游要聞

      明天12時4分,仙游將迎來…

      教育要聞

      孩子的數學危機,早在小學就埋下了

      看看這些穿搭就知道,秋季穿衣很簡單,找對方法舒適又得體

      超聲探頭會加重受傷情況嗎?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久亚洲人成网站| 建昌县| 欧洲熟妇熟女久久精品综合| 宜章县| 国产亚洲精品AA片在线爽| 国内精品久久久久影视| 成人午夜福利免费专区无码| 美女内射福利大全在线看| 亚洲真人无码永久在线| 亚洲成在人天堂一区二区| 人人澡超碰碰97碰碰碰| 国产成人一区二区免av| 崇明县| 东京热一精品无码av| 国产日韩精品视频无码| 国产偷窥熟女高潮精品视频| 国产精品一品二区三四区| 欲色欲色天天天www| 亚洲av无码牛牛影视在线二区| 婷婷四房综合激情五月在线 | 亚洲熟妇精品一区二区| 一日本道伊人久久综合影| 亚洲中文字幕无码久久精品1| 蜜桃视频一区二区三区四| 国产v亚洲v天堂a无码| 国产极品粉嫩馒头一线天| 国产91午夜福利精品| 奶头好大揉着好爽视频| 娇妻玩4p被三个男人伺候| 久久久噜噜噜久久| 亚洲精品综合网二三区| 精品 日韩 国产 欧美 视频| 男人天堂亚洲天堂女人天堂| 亚洲gay片在线gv网站| 精品免费看国产一区二区| 国产熟女一区二区三区四区| 美女又黄又免费的视频| 亚洲精品三区四区成人少| 国产成人啪精品视频免费网| 国产日韩一区二区四季| 蜜臀av一区二区三区精品|