<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      科學家驗證強柏拉圖表征假說,證明模型會收斂于相同通用意義幾何

      0
      分享至

      2024 年,美國麻省理工學院團隊曾提出“柏拉圖表征假說”(Platonic Representation Hypothesis),該假說推測現代神經網絡的表征空間正在趨于收斂。即不同的 AI 模型正在趨向于一個統一的現實表征。就像在柏拉圖洞穴寓言中囚犯們看到的影子是現實的投影一樣,正在不斷迭代的 AI 模型也開始理解投影背后更高維度的現實。當時,相關論文還曾獲得前 OpenAI 首席科學家伊利亞·蘇茨克維(Ilya Sutskever)的點贊。

      2025 年 5 月,在上述基礎之上,美國康奈爾大學博士生張睿杰和所在研究團隊提出“強柏拉圖表征假說”(Strong Platonic Representation ypothesis),即潛在的通用表征是可以被學習并加以利用的,也能在無需任何編碼器或成對數據的情況下實現表征空間之間的轉換。


      圖 | 張睿杰(來源:https://collinzrj.github.io/)

      研究中,他們還提出一種名為 vec2vec 的新方法,這是一種能將文本嵌入從一個向量空間轉換到另一個向量空間的方法。其表示這也是第一種無需任何配對數據、編碼器或預定義匹配集即可實現上述能力的方法。

      也就是說,作為一種無監督方法,vec2vec 能將任意嵌入與“柏拉圖表征假說”推測的通用語義結構進行雙向轉換。

      具體來說,vec2vec 能夠轉換由未知編碼器生成的未知文檔嵌入,并且對于分布外的輸入具有魯棒性。哪怕模型架構、參數規模和訓練數據各不相同,vec2vec 在模型對之間仍能實現高度的余弦相似度。在保留未知嵌入幾何結構的同時,該方法能夠將其轉換到不同空間。

      換言之,vec2vec 能夠學習“與領域無關”的轉換,這一能力主要基于不同嵌入空間中表示相同語義時所通用的幾何結構關系。同時,研究團隊還證明 vec2vec 轉換能夠保留足夠的輸入語義,從而支持屬性推理。

      此外,他們從一些患者記錄和企業郵件中提取了一些敏感疾病信息和其他相關內容,不過他們僅僅訪問了文檔嵌入,并未接觸生成這些嵌入的編碼器。

      通過本次研究他們發現,更好的轉換方法將能實現更高保真度的信息提取,這再次印證了一個事實:嵌入所揭示的信息幾乎與其輸入內容一樣多。

      因此,此次發現能為基于文本的模型的“強柏拉圖表征假說”提供令人信服的證據。

      基于 OpenAI 幾年前推出的“對比語言 - 圖像預訓練”(CLIP,Contrastive Language - Image Pretraining)模型,本次研究的初步實驗結果表明,通用幾何結構也可用于其他模態。

      需要說明的是,本次成果僅僅是表征間轉換的一個下限。隨著更好、更穩定的學習算法的面世,以及相關架構的改進,預計本次成果將能擴展到更多數據、更多模型家族和更多模態之中。



      余弦相似度高達 0.92

      據了解,文本嵌入是現代自然語言處理(NLP,Natural Language Processing)的核心,它能為檢索、檢索增強生成(RAG,Retrieval-Augmented Generation)、分類和聚類等任務提供支持。

      對于許多嵌入模型來說,它們是在不同數據集、不同數據打亂方式和不同初始化條件下訓練而來的。

      文本的嵌入編碼了其語義信息:一個優秀的模型會將語義相近的文本,映射到嵌入空間中彼此接近的向量上。由于語義是文本的屬性,同一文本的不同嵌入應該編碼相同的語義。

      然而,在實踐中,不同的模型會將文本編碼到完全不同且不兼容的向量空間中。

      此前,由麻省理工學院團隊提出的“柏拉圖表征假說”推測:所有足夠大的圖像模型都具有相同的潛在表征。針對文本模型,本次研究團隊提出了該假說的一個更強的建設性版本:文本表征的通用潛在結構是可以被學習的,并能進一步地在無需任何配對數據或編碼器的情況下,利用該結構將表征從一個空間轉換到另一個空間。

      在這項工作中,研究團隊證明強柏拉圖表征假說在實踐中是成立的。通過給定來自兩個具有不同架構和訓練數據的模型的未配對嵌入示例,他們使用 vec2vec 學習了一個潛在表征,其中這些嵌入幾乎完全相同。


      (來源:資料圖)

      研究中,他們從跨語言詞嵌入對齊研究和無監督圖像翻譯研究中汲取靈感。據介紹,vec2vec 使用對抗性損失和循環一致性,來學習將嵌入編碼到共享潛在空間中,并能以最小的損失進行解碼,這使得無監督轉換成為了可能。

      同時,研究團隊采用了一種對抗性方法,并結合向量空間保持技術,來學習如何將未知嵌入分布映射到已知分布。

      通過此,他們發現 vec2vec 轉換在目標嵌入空間中與真實向量的余弦相似度高達 0.92,并且在 8000 多個隨機排列的 vec2vec 嵌入上實現了完美匹配,而且無需預先訪問匹配集合。為了證明上述轉換同時保留了“嵌入的相對幾何結構”和“底層輸入的語義”,他們在完全不了解生成原始嵌入模型的情況下,使用零樣本的屬性開展推斷和反演,并從這些向量中成功提取到了信息。



      無監督嵌入轉換

      據了解,關于嵌入向量集之間的匹配問題或對應問題,已經有大量的研究。但是,這些方法都不適用于本次研究的設置,因為此前研究假設存在由不同編碼器從相同輸入產生的兩組或更多組的嵌入向量。

      換句話說,對于每個未知向量來說,必須已經存在另一組不同嵌入空間中的候選向量,其中有一個是正確匹配項。

      但是,在實際應用中,很難獲得這樣的數據庫。研究團隊表示,他們之所以認為無監督嵌入轉換是可行的,是因為它完全取決于更強版本的柏拉圖表征假說。

      為此,他們提出了如下猜想:當使用相同的目標和模態,但是使用不同數據以及由不同模型架構訓練的神經網絡,將會收斂到一個通用的潛在空間,從而在無需任何成對對應關系的情況下,即可學習各自表征之間的轉換。

      在計算機視覺領域,結合了循環一致性和對抗正則化的無監督轉換已經取得成功。因此,研究團隊在 vec2vec 的設計上,也從這些方法中獲得了一些啟發。

      與此同時,他們希望實現具有循環一致性和不可區分性的嵌入空間轉換。與圖像不同的是,嵌入向量不具有任何空間偏差。

      研究中,研究團隊并沒有使用卷積神經網絡(CNN,Convolutional Neural Network),而是采用了具有殘差連接、層歸一化和 SiLU 非線性激活函數的多層感知機(MLP,Multilayer Perceptron)。在判別器上則采用了與生成器類似的結構,但是省略了殘差連接,以便讓對抗學習過程得到簡化。



      無需任何配對數據,就能學習轉換嵌入向量

      在數據集上,研究團隊使用了由真實用戶查詢的自然問題(NQ,Natural Questions)數據集,并使用了由維基百科答案訓練的數據集。

      為了針對信息提取進行評估:

      首先,他們使用了 TweetTopic,這是一個由 19 個主題組成的、有著多標簽標記的推文數據集。

      其次,他們使用了偽重新識別的 MIMIC-III(MIMIC)的隨機 8192 個記錄子集,并使用了由 2673 個 MedCAT 疾病描述多重標記的患者記錄的 MIMIC 數據集的偽重新識別版本。

      再次,他們使用了已經倒閉的能源公司安然(Enron)的電子郵件語料庫的 50 封隨機電子郵件子集,這也是一個未標記的公共數據集。

      在模型上,研究團隊使用了代表三種規模類別、四種 Transformer 主干架構和兩種輸出維度的嵌入模型。其中,Granite 是多語言模型,CLIP 是多模態模型。


      (來源:資料圖)

      實驗中,他們證明 vec2vec 能夠學習一個通用的潛在空間,并證明這個空間保留了所有嵌入的幾何結構。這讓他們可以將其用作一種文本編碼器的通用語言,并且無需任何配對數據就能轉換其表征。

      實驗結果顯示,vec2vec 轉換能夠反映目標空間的幾何結構。如下圖所示,vec2vec 在模型對之間生成了近乎最優分配的嵌入,實現了高達 0.92 的余弦相似性分數、高達 100% 的 top-1 準確率,且矩陣秩(rank)低至 1。


      (來源:資料圖)

      在相同骨干網絡的配對組合中,vec2vec 甚至能夠接近于借助先知(oracle)的最優分配方案的性能。vec2vec 生成的嵌入向量,比 na?ve 基線更加接近真實值。

      在跨主干配對中,vec2vec 在所有指標上都遠勝一籌,而基線方法的表現則與隨機猜測相差無幾。如下圖所示,這種性能甚至可以擴展到分布外數據。


      (來源:資料圖)

      如前所述,vec2vec 轉換器是在 NQ 數據集上訓練的,但是在 X 推文和醫療記錄上進行評估時,它仍然表現出較高的余弦相似性、較高的準確率以及較低的矩陣秩。


      (來源:資料圖)

      研究團隊指出,vec2vec 始終優于最優任務基線。這些結果表明,本次方法在適應新模態方面具有潛力,特別是 CLIP 的嵌入空間已經成功與其他模態比如熱圖、音頻和深度圖建立了連接。



      使用 vec2vec 轉換來提取信息

      研究中,研究團隊證明 vec2vec 轉換不僅保留了嵌入的幾何結構,還保留了足夠的語義以便能夠支持屬性推理。

      如下圖所示,對 vec2vec 轉換進行的屬性推理始終優于 na?ve 基線,并且往往比理想的零樣本基線表現更好。需要說明的是,這一理想基線旨在針對同一空間中的真實文檔嵌入和屬性嵌入進行推理。由于在本次研究場景中無法獲得這些嵌入,因此它是一個假設性基線。


      (來源:資料圖)

      研究團隊表示,vec2vec 轉換甚至適用于醫療記錄的嵌入向量。在同主干配對中,針對轉換后的嵌入進行屬性推理的表現與 na?ve 基線相當,而在跨主干配對中則大幅優于簡單基線。

      比如,vec2vec 能夠保留像“牙槽骨骨膜炎”這類概念的語義,而這類概念從未出現在訓練數據中,這證明 vec2vec 的潛在空間確實是一種通用表示。

      反演,即重建文本輸入。相比屬性推斷,反演更加具有挑戰性。而 vec2vec 轉換能夠保留足夠的語義信息,以至于就算使用那些“原本為標準編碼器生成的嵌入”而開發的現成零樣本反演方法,也能僅憑轉換后的嵌入,來從一些模型對中重建多達 80% 的文檔內容。


      (來源:資料圖)

      當然,這些反演并不完美。研究團隊表示,他們將在未來針對轉換后嵌入開發專門的反演器。總的來說,本次研究證明所有語言模型都會收斂于相同的“通用意義幾何”,從而將給向量數據庫的發展帶來一定影響。

      參考資料:

      https://arxiv.org/pdf/2505.12540

      運營/排版:何晨龍

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      58000沒了?湖北男子守釣4天4夜,百斤巨青終上岸,拍照留念放生

      58000沒了?湖北男子守釣4天4夜,百斤巨青終上岸,拍照留念放生

      解說阿洎
      2025-11-05 09:15:23
      潘基文致辭 穆虹出席 王曉暉致歡迎辭

      潘基文致辭 穆虹出席 王曉暉致歡迎辭

      愛看頭條
      2025-11-06 09:55:05
      搶救4小時人沒了,還收到140萬醫療賬單,我用AI發現:多收了115萬!

      搶救4小時人沒了,還收到140萬醫療賬單,我用AI發現:多收了115萬!

      小星球探索
      2025-11-06 12:37:42
      小米巨省電空調,能效比倒數第一*,空調高管不懂空調術語?

      小米巨省電空調,能效比倒數第一*,空調高管不懂空調術語?

      小小河
      2025-11-06 01:34:24
      銅價暴漲,曾經比華為騰訊還猛的銅王,卻只剩凄涼

      銅價暴漲,曾經比華為騰訊還猛的銅王,卻只剩凄涼

      華商韜略
      2025-11-06 10:28:12
      鄭麗文主持首場中評會,被多人打臉;邱毅要鄭麗文道歉,匪夷所思

      鄭麗文主持首場中評會,被多人打臉;邱毅要鄭麗文道歉,匪夷所思

      林子說事
      2025-11-06 01:20:31
      滬指重回4000點上方

      滬指重回4000點上方

      界面新聞
      2025-11-06 10:36:03
      章澤天瘦得驚人,燙了頭發后更放飛自我,和杜海濤擺拍

      章澤天瘦得驚人,燙了頭發后更放飛自我,和杜海濤擺拍

      鄉野小珥
      2025-10-26 06:59:35
      俄羅斯空天軍接收2025年第六批蘇-35S戰斗機 官方照片顯示為兩架

      俄羅斯空天軍接收2025年第六批蘇-35S戰斗機 官方照片顯示為兩架

      hawk26講武堂
      2025-11-05 12:55:05
      美國稱:中國不可怕,可怕的是,中國淘汰4000年的東西他們還在用

      美國稱:中國不可怕,可怕的是,中國淘汰4000年的東西他們還在用

      文史微鑒
      2025-11-05 11:23:04
      離婚協議寫撫養費付到工作,女兒留學54萬!前夫拒付,法院判了

      離婚協議寫撫養費付到工作,女兒留學54萬!前夫拒付,法院判了

      一絲不茍的法律人
      2025-10-27 16:57:25
      白應蒼被宣判死刑時,仍舊昂首挺胸,毫無悔意,他爹已經屁滾尿流

      白應蒼被宣判死刑時,仍舊昂首挺胸,毫無悔意,他爹已經屁滾尿流

      我心縱橫天地間
      2025-11-05 11:28:28
      知名裝備網站:阿迪達斯將于11月6日發售世界杯球衣,23隊諜照泄露

      知名裝備網站:阿迪達斯將于11月6日發售世界杯球衣,23隊諜照泄露

      懂球帝
      2025-11-05 16:50:15
      對肺特別好的食物,隔兩天一次,殺菌消炎,養肺潤肺,給肺大掃除

      對肺特別好的食物,隔兩天一次,殺菌消炎,養肺潤肺,給肺大掃除

      江江食研社
      2025-11-05 12:30:03
      深田恭子靠“全裸打掃”維持少女身材?網友:這也太日本了!

      深田恭子靠“全裸打掃”維持少女身材?網友:這也太日本了!

      橙星文娛
      2025-11-06 11:41:13
      今夜,直線拉升!特朗普,改口了!

      今夜,直線拉升!特朗普,改口了!

      中國基金報
      2025-11-06 00:23:17
      突發!亞太股市,全線大跌!韓國緊急“拔網線”!發生了什么?

      突發!亞太股市,全線大跌!韓國緊急“拔網線”!發生了什么?

      證券時報e公司
      2025-11-05 09:50:13
      被傳分手7個月,鹿晗演唱會后高調官宣,真相原來早有預兆

      被傳分手7個月,鹿晗演唱會后高調官宣,真相原來早有預兆

      麥芽是個小趴菜
      2025-11-06 08:26:56
      火力全開!奧巴馬痛斥特朗普:美國正陷“黑暗時刻”

      火力全開!奧巴馬痛斥特朗普:美國正陷“黑暗時刻”

      天氣觀察站
      2025-11-06 12:23:17
      叫板川普,馬姆達尼先帶紐約人體驗委內瑞拉“免費”價格

      叫板川普,馬姆達尼先帶紐約人體驗委內瑞拉“免費”價格

      移光幻影
      2025-11-06 08:10:33
      2025-11-06 13:44:49
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      15824文章數 514267關注度
      往期回顧 全部

      科技要聞

      蘋果“認輸”!曝每年10億美元租用谷歌AI

      頭條要聞

      女星安吉麗娜朱莉訪烏 隨身保鏢被烏軍征兵處抓走服役

      頭條要聞

      女星安吉麗娜朱莉訪烏 隨身保鏢被烏軍征兵處抓走服役

      體育要聞

      送走兩位全明星,公牛成了東部第一

      娛樂要聞

      白百何好友揭露爭獎細節

      財經要聞

      特朗普關稅遭美國高院大法官輪番質疑

      汽車要聞

      方向盤?不存在的 特斯拉 Cybercab亞太首秀

      態度原創

      游戲
      手機
      家居
      房產
      公開課

      《足球經理26》Steam國區好評率5%:幾千小時老兵無語

      手機要聞

      華為 Mate 70 Air 中框采用高分子與金屬復合材料一體成型工藝

      家居要聞

      別樣府院 暢享詩意生活

      房產要聞

      中旅·三亞藍灣,以一座城市會客廳回應世界的濱海想象

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 东京热人妻丝袜无码AV一二三区观 | 湘潭县| 99久久精品国产一区二区蜜芽| 亚洲欧洲一区二区天堂久久| 人妻系列无码专区免费| 欧美人禽杂交狂配| 99精品国产一区二区三| 国产精品中文字幕久久| 日韩精品av一区二区三区| 久久中文字幕国产精品| 中文有无人妻vs无码人妻激烈| 洛隆县| 国内揄拍国内精品少妇国语| 无码免费大香伊蕉在人线国产| 国内精品久久久久影院网站| 女人高潮流白浆视频| 久久精品夜夜夜夜夜久久| 忘忧草影视| 国产在线观看网址不卡一区| 国产综合av一区二区三区| 97国产成人无码精品久久久| 国产亚洲精品岁国产精品| 亚洲av中文乱码一区二| 中文字幕乱码无码人妻系列蜜桃| 国产专区一线二线三线码| 中文字幕在线亚洲日韩6页| av在线播放观看国产| 日本东京热不卡一区二区| 精品超清无码视频在线观看| 私人毛片免费高清影视院| 亚洲岛国av一区二区| 国产综合视频一区二区三区| 亚洲一区中文字幕人妻| 日韩高清不卡一区二区三区 | 水蜜桃视频在线观看免费18| 少妇高潮水多太爽了动态图| 免费吃奶摸下激烈视频| 四虎永久精品在线视频| 免费午夜无码片在线观看影院| 被拉到野外强要好爽| 亚洲天堂成人一区二区三区|