<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      會「進化」的合成數據!無需上傳隱私,也能生成高質量垂域數據

      0
      分享至



      張劍清是一名上海交通大學在讀博士生,獲中國人工智能學會「青托」、吳文俊人工智能榮譽博士及國家獎學金。在代碼大模型、合成數據集進化生成、聯邦學習與推薦系統方向取得系列成果,主要關注其中的垂域自適應、模型融合、模型個性化主題,于JMLR、NeurIPS、ICML、CVPR、KDD、ICCV、AAAI等發表9篇CCF-A一作論文,主導并開源了PFLlib、HtFLlib、EvolveGen等項目,曾在字節跳動、清華AIR、KAUST、騰訊等機構實習交流。

      數據短缺問題隨著大模型的高速發展,日益加劇。已經有不少 Nature 論文指出,預計到 2028 年,公共數據的產生速度將因趕不上大模型訓練的消耗速度而被耗盡。而在某些特殊領域,比如醫療、工業制造等,原本可用數據就非常少,數據短缺的問題更嚴重。

      為了解決這一困境,我們提出了合成數據自主進化框架 PCEvolve:只需提供少量標注樣本,就可在保護隱私同時進化出一整個數據集。PCEvolve 的進化過程類似 DeepMind 提出的 FunSearch 和 AlphaEvolve。



      • 論文標題:PCEvolve: Private Contrastive Evolution for Synthetic Dataset Generation via Few-Shot Private Data and Generative APIs
      • 論文鏈接:https://www.arxiv.org/abs/2506.05407
      • 開源代碼:https://github.com/TsingZ0/PCEvolve
      • 進化生成開源平臺:https://github.com/TsingZ0/EvolveGen

      現有大模型 API 并不能拿來直接合成垂域數據

      垂直領域的中小企業普遍不具備訓練私有大模型的能力,而傾向于使用現成的大模型 API(下文簡稱「大模型」)。人造合成數據是目前解決數據短缺問題所采用的主流方法:讓已有大模型生成數據,再進行篩選、標注、清洗等步驟,得到高質量訓練數據。

      然而,當應用到垂直領域,如醫療、工業制造等領域,大模型雖然能夠根據 prompt 生成對應的數據,但滿足「語義匹配」的數據,并不能直接拿來作為垂直領域數據使用。這是因為:垂直領域的數據還有各種其他特性信息,比如光照、數據采樣設備型號、隱私信息、上下文等。

      舉例來說,皮革在不同環境、材質、磨損程度等方面,都具備太多細節信息,而提供給大模型的 prompt 很難完整描述;即便完整描述,大模型也不能完全生成符合 prompt 的數據,因為大模型本身還無法完全模擬世界。

      如下圖所示,大模型生成的數據,和垂域攝像機拍攝的數據,具有巨大的差距,雖然標簽都是「帶有膠水殘留的皮革」。同樣的,在文本領域,讓現成的大模型生成的 code snippet 數據,也無法與某公司內部開發人員的代碼習慣和代碼規范相匹配。而且,這一垂域數據特征分布差異的問題,在任意模態都存在。



      【圖 1】左邊為大模型生成,右邊為實際采集。在工業制造皮革領域,大模型生成圖片和實際采集圖片的對比

      同時,因為垂域數據可能因為知識產權、隱私保護、行業規范等原因,本地數據不允許上傳給大模型作 context,極大地增加了 prompt 工程的難度、降低了合成數據的質量。比如,公司內部的代碼不能上傳、醫院的病人數據不能上傳、企業的次品樣品數據不能上傳等等。

      PCEvolve:保護隱私的合成數據進化框架

      垂域數據除了不能上傳之外,還具有本身就稀少的特性,導致帶標注的垂域樣本原本就少。這使得其他要求提供大量標注樣本的方法(如 PE 等),不再可用。因為 PE 等方法在垂域情況下,為了保護隱私所加的噪聲過大,使其方法退化為一種隨機方法。而我們的 PCEvolve 在進化過程中設計了一種基于「指數機制」(Exponential Mechanism)的新的隱私保護方法,適配垂域場景的少樣本情況。

      下圖是 PCEvolve 的架構圖,左邊是迭代進化框架:類似達爾文進化論,先讓大模型 API 生成較大數量的候選合成數據(種群),再經過【選擇器】(自然選擇)進行淘汰,最后將不帶隱私信息的優質合成數據返回給大模型進行下一輪進化。右邊則是進化框架的「引擎」【選擇器】的詳細設計:以隱私數據作為參考(verifier)給合成數據打分(reward),最后根據分數優勝劣汰;其中打分過程,因為用到了隱私數據,需要作隱私保護。



      【圖 2】PCEvolve 架構圖

      PCEvolve 選擇器詳細設計

      首先我們先聲明:下面所有的操作都需要考慮隱私保護,我們采用的是差分隱私(Differential Privacy, DP),并通過指數機制來實現 DP,其中指數機制定義為:



















      • 執行指數機制選擇存活樣本因為在我們的精心設計下,使得指數機制得以滿足,DP 得以保證。所以這一步變得簡單:我們只需要執行指數機制定義的概率采樣,即可得到帶有隱私保護的高質量合成數據選擇結果。

      在醫療場景和工業制造場景的實驗結果

      我們主要通過兩種方式驗證 PCEvolve 的效果:a) 合成的數據對于下游模型訓練的增幅,b) 合成數據本身的質量。

      a) 合成的數據對于下游模型訓練的增幅

      我們評估了 PCEvolve 在COVIDx(COVID-19 胸部 X 線圖像)、Came17(乳腺癌轉移的腫瘤組織切片)、KVASIR-f(用于胃腸道異常檢測的內鏡圖像)、MVAD-l(用于異常檢測的皮革表面)上的表現,這里大模型方面我們只需提供 API 即可。



      【表 1】在四個特殊領域數據集上的精度(%)

      b) 合成數據本身的質量

      下圖是我們采樣的皮革表面數據,這三行分別代表正常皮革、有切割缺陷的皮革、有膠水殘留缺陷的皮革。「Initial」表示大模型 API 合成的圖像(進化之前);「Private」表示垂域場景真實采集的隱私皮革表面數據。



      【圖 3】皮革表面圖像數據。

      其他更多實驗詳見論文。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      三觀奇葩!小S二女兒接受采訪,說具俊曄會去家里吃飯,他太瘦了

      三觀奇葩!小S二女兒接受采訪,說具俊曄會去家里吃飯,他太瘦了

      樂悠悠娛樂
      2025-11-05 11:44:35
      哈蘭德:對陣多特的進球是我職業生涯至今最好的進球

      哈蘭德:對陣多特的進球是我職業生涯至今最好的進球

      懂球帝
      2025-11-05 03:05:14
      昆明圓通山突發山體滑坡!

      昆明圓通山突發山體滑坡!

      云南網絡廣播電視臺
      2025-11-05 13:51:58
      央媒評鄭智化道歉,言辭犀利三連問直戳心窩,輿論風向已變!

      央媒評鄭智化道歉,言辭犀利三連問直戳心窩,輿論風向已變!

      智凌縱橫
      2025-11-05 11:54:35
      2人被查,1人被“雙開”!廣西紀檢監察機關最新通報→

      2人被查,1人被“雙開”!廣西紀檢監察機關最新通報→

      南國今報
      2025-11-05 21:55:04
      雷克瑟姆CEO:埃里克森經紀人最初以為我們想簽球員拍紀錄片

      雷克瑟姆CEO:埃里克森經紀人最初以為我們想簽球員拍紀錄片

      懂球帝
      2025-11-05 21:34:11
      爸爸去哪兒五個孩子現狀:有人入少林寺,有人出國,有人進國家隊

      爸爸去哪兒五個孩子現狀:有人入少林寺,有人出國,有人進國家隊

      暖心萌阿菇涼
      2025-11-06 00:21:08
      男性衰老的標志:1臭、2大、2小,如果你沒有,說明還年輕!

      男性衰老的標志:1臭、2大、2小,如果你沒有,說明還年輕!

      荷蘭豆愛健康
      2025-10-31 14:56:32
      臺當局放話,大陸不答應條件,明年不來參會,外交部只回2句話

      臺當局放話,大陸不答應條件,明年不來參會,外交部只回2句話

      博覽歷史
      2025-11-05 18:25:26
      小姐姐穿搭有格調,灰色開衫配瑜伽褲很吸睛,內搭漸變上衣太颯了

      小姐姐穿搭有格調,灰色開衫配瑜伽褲很吸睛,內搭漸變上衣太颯了

      小喬古裝漢服
      2025-11-04 15:18:45
      從棄將到救星!波普回歸湖人條件苛刻,文森特成籌碼

      從棄將到救星!波普回歸湖人條件苛刻,文森特成籌碼

      林子說事
      2025-11-05 10:23:58
      皮膚干燥多吃它,膠原蛋白是豬蹄的兩倍,更容被吸收,解饞兩不誤

      皮膚干燥多吃它,膠原蛋白是豬蹄的兩倍,更容被吸收,解饞兩不誤

      阿龍美食記
      2025-10-29 14:12:19
      佟麗婭曬照為董璇慶生,評論區炸了:張維伊更帥了,董璇孕肚明顯

      佟麗婭曬照為董璇慶生,評論區炸了:張維伊更帥了,董璇孕肚明顯

      老韁科普
      2025-11-06 00:31:50
      莫耶斯:阿森納引領英超定位球潮流;賴斯開定位球非常出色

      莫耶斯:阿森納引領英超定位球潮流;賴斯開定位球非常出色

      懂球帝
      2025-11-06 00:59:05
      陳晉一跑不動也不換,斯帥保守 放著3攻擊手不用 申花排倒數第三

      陳晉一跑不動也不換,斯帥保守 放著3攻擊手不用 申花排倒數第三

      替補席看球
      2025-11-05 22:33:19
      新S級假想圖流出!奔馳這是要回歸經典了

      新S級假想圖流出!奔馳這是要回歸經典了

      Ai愛車
      2025-11-04 21:50:07
      爆雷的私處“高潮針”,掏空2億少婦!

      爆雷的私處“高潮針”,掏空2億少婦!

      廣告創意
      2025-08-21 17:30:28
      拔出蘿卜帶出泥!釋永信被抓后,實名舉報的釋延魯也被抓到小辮

      拔出蘿卜帶出泥!釋永信被抓后,實名舉報的釋延魯也被抓到小辮

      冒泡泡的魚兒
      2025-11-05 11:56:29
      汪小菲全家游再無小楊阿姨!馬筱梅布局,十年保姆淪為寵物看護?

      汪小菲全家游再無小楊阿姨!馬筱梅布局,十年保姆淪為寵物看護?

      樂悠悠娛樂
      2025-11-05 10:29:11
      56歲才明白:夫妻分房睡久了,男人越能忍,越暴露婚姻的真相

      56歲才明白:夫妻分房睡久了,男人越能忍,越暴露婚姻的真相

      曉艾故事匯
      2025-11-03 08:09:36
      2025-11-06 01:23:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11656文章數 142498關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      丈夫突然病亡2天后妻子也離世留下一兒一女 妹妹發聲

      頭條要聞

      丈夫突然病亡2天后妻子也離世留下一兒一女 妹妹發聲

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      事關加快建設金融強國 中央金融辦發聲

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      房產
      健康
      手機
      時尚
      數碼

      房產要聞

      最新!海南樓市10月熱銷榜單出爐!

      超聲探頭會加重受傷情況嗎?

      手機要聞

      蘋果Shazam更新26.0版:液態玻璃界面煥新登場

      今年一定要擁有這件大衣,復古又時髦!

      數碼要聞

      小米POCO X1平板現身Geekbench 搭載驍龍7+ Gen 3

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲国产一区二区av| 怡红院一区二区三区在线| 亚洲精品综合网在线8050影院| 男女吃奶做爰猛烈紧视频| 国产91久久精品一区二区| 中文字幕日韩有码国产| 好紧好滑好湿好爽免费视频| 亚洲线精品一区二区三八戒| 人人澡人人妻人人爽人人蜜桃| 视频区 国产 图片区 小说区| 亚洲欧美日韩综合久久| 国产果冻豆传媒麻婆精东 | 精品久久精品午夜精品久久| 色爱综合另类图片av| 日韩美女一区二区三区视频| 熟女人妻aⅴ一区二区三区电影| 国产精品无码专区| 武城县| 国产一级老熟女自拍视频| 国产目拍亚洲精品二区| 亚洲欧美综合人成在线| 人妻熟妇乱又伦精品无码专区| 久久久久国产一级毛片高清版A| 久热这里只有精品12| 国产麻豆md传媒视频| 成人久久精品国产亚洲av| 亚洲熟妇精品一区二区| 亚洲精品漫画一二三区| 亚洲男人电影天堂无码| 国产免费人成网站在线播放| 欧美色丁香| 亚洲国产欧美不卡在线观看| 成人无码潮喷在线观看| 女人喷水高潮时的视频网站| 最新AV中文字幕无码专区| 国产自拍偷拍视频在线观看 | 中国老妇xxxx性开放| 国产精品日韩深夜福利久久| 动漫av网站免费观看| 国产亚洲精品AA片在线爽| 国产精品内射在线免费看|