<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      大模型下半場:誰在掘金數據標注?

      0
      分享至


      AI訓練下半場,數據成為關鍵詞。

      新眸原創·作者 | 簡瑜

      兩個月前,Meta豪擲約150億美元(約合人民幣1078億元)入股Scale AI,一舉拿下49%股份。交易完成后,Scale估值被推高至290億美元。

      作為硅谷AI賽道近幾年最猛的黑馬,Scale AI從成立到估值飆升至138億美元,僅用了5年時間,幾乎創造了一個行業的神話。

      這家公司的主業,是數據標注。低成本的員工門檻和海量的人工參與,這個看似枯燥且“苦力活”的領域,長期以來被視為是AI產業鏈里最不性感、最缺乏想象力的一環。

      然而,正是憑借這門“臟活累活”,Scale在大模型時代迅速完成了從幕后到臺前的躍遷,成為硅谷最炙手可熱的明星公司。Meta的出手,則進一步將數據標注這個原本處于產業底層的環節,推向了聚光燈下。

      更耐人尋味的是,這場收購并不僅僅是資本層面的“下注”。

      作為交易的一部分,Scale創始人兼CEO汪滔將卸任,帶領部分核心員工加入Meta,組建所謂的「超級智能小組」,同時保留Scale董事會席位。換句話說,Meta買的不只是數據,更是汪滔本人的戰略眼光和執行能力。

      這場來勢洶洶的收購背后,折射出的是Meta的數據焦慮。

      2024年,Meta推出的Llama4Behemoth,曾因訓練數據質量問題飽受詬病,原因在于Llama4Behemoth約30%的語料源自低質量社交媒體內容,導致模型在多模態理解、長文本推理等核心指標上,仍落后GPT-4.5約12%。對Meta而言,缺乏高質量數據成為了限制其模型追趕的最大短板。

      某種程度上,在AI模型訓練對數據依賴日益加深的當下,數據標注作為模型訓練的第一道防線,其戰略地位正在被重新估值。

      01

      從苦力活到智能化

      數據標注進化之路

      什么是數據標注?

      一句話概括,就是給原始數據打上標簽,把“人類能理解的信息”轉化為“AI能識別的訓練樣本”。比如在自動駕駛場景中,采集車上傳的只是道路影像,但AI無法直接看懂。只有當人類標注員把車道線、路牌、行人等元素逐一框選、標記,這些影像才真正具備訓練價值。

      在這個行業里,大致存在三類玩家:

      第一類是純人力型公司。依靠大量低成本勞動力完成標注,適合做圖像分類、語音轉寫等標準化任務。技術門檻不高,客戶往往需要自帶工具和平臺,符合大眾對“數據標注就是體力活”的固有印象。

      第二類是互聯網大廠的眾包平臺。典型代表如京東眾智、百度眾測,主要用于滿足公司自身業務場景需求,再通過眾包機制把任務拆解、分發給外部勞動力池。

      第三類則是智能型服務商。這類公司具備自主研發平臺和算法能力,能提供自動化標注工具、質量控制體系以及高度定制化的解決方案,尤其擅長3D點云、多模態等復雜任務,往往在效率和準確性上顯著領先同行。

      長期以來,前兩類公司本質上都是“人力堆砌型”企業,規模和利潤空間有限,天花板非常明顯。尤其是第一類,更多時候只是第三類智能公司的外包池子。事實上,今天大多數頭部智能型企業,幾乎都是從這種人力公司一步步進化而來。

      以行業龍頭Scale AI為例,它的前身其實叫“ScaleAPI”。最初,它并不是一家數據平臺公司,而是提供一個“人力API”:開發者只需寫一行代碼,就能調度一支遠程勞動力團隊,幫忙完成內容審核、數據提取、預約安排等瑣碎任務。

      這種以人工驅動的輕量模式,既幫Scale拿下了豐田、本田等早期大客戶,也積累了大量高價值數據。

      有了基礎數據的積累,再加上AI能力的升級,自2018年起,Scale就開始逐步用模型替代掉部分重復性、套路化的人力工作,構建起一套“機器預標注+人工復核”的混合工作流。先由算法完成預標注,再由人工專家審核和修正。

      這種AI代替的模式,為公司的效率和質量帶來了雙重提升。根據OpenAI的測算,ChatGPT的平均標注成本低于0.003美元,比傳統眾包平臺便宜20倍。而在準確率上,GPT-4完成的標注結果可達到88.4%,甚至超過了人類標注員的86.2%。

      02

      全球數據標注版圖:

      美國為何能占四成?

      根據DMR(DimensionMarketResearch)在2024年7月發布的預測報告,全球數據標注行業市場規模約為20億美元,其中美國市場規模為8.38億美元,占據約40%的份額。這也是目前能查到的最新數據。

      為什么美國能長期占據全球數據標注的主導地位?

      一方面,數據標注本質上是人力密集型產業。標注員的工作門檻低、流動性大,導致人力幾乎成為成本控制的核心競爭力。

      為了減輕組織壓力,企業通常會選擇外包或眾包的方式來派發項目。在這一點上,美國公司憑借全球化分工的優勢,將基礎標注任務外包給低成本國家,實現了極致的成本壓縮。

      典型的例子,Scale AI通過旗下眾包平臺Remotasks,它將最基礎的框選標注任務分發給菲律賓、肯尼亞等低成本地區。除官網披露的900名正式員工外,其平臺上注冊工人超過24萬人,遍布全球。

      其次,在技術水平和自動化程度上,國內外廠商存在明顯差距。目前國內最大的標注公司云測數據,早在2021年就嘗試引入自動標注功能,但應用范圍仍主要集中在智能駕駛領域;另一家專注語音的海天瑞聲,也在研發自動語音切割等工具,但整體智能化水平有限,仍高度依賴人工。

      相比之下,Scale AI在2018年就布局自動化標注,雖然同樣是自動駕駛起家,但業務已經擴展到語言、金融、醫療甚至軍事等領域。

      更重要的是,Scale AI不只是一家單純的數據標注商公司,此次 Meta重金挖走的汪滔,被稱為華裔“天才少年”,19歲那年從美國麻省理工學院輟學,創立Scale AI,在最近的一段采訪中,他提到,不僅是數據標注,在招聘流程、質控流程、數據分析、銷售報告等環節,Scale AI都已經實現了自動化管理。

      某種程度上來說,作為一個因大模型訓練需求而誕生的行業,國內企業布局的短板,很大程度上是由市場需求的缺失所決定的。

      數據標注最大的兩個服務場景分別是大模型和自動駕駛,而這兩個產業的絕對主力軍大多分布美國。出于數據天然涉及隱私和安全考量,企業更傾向于選擇本國標注商合作。

      正因此,美國既孕育出了Scale這樣的全能型選手,還有surgeAI、Turing這樣面向微調服務,以及Lionbridge這樣面向文本、語音的數據公司。

      相比之下,國內由于本身勞動力較為密集,互聯網大廠通常會采用眾包模式而非專門標注公司,且在部分模型采用蒸餾的前提下,國內市場需求要遠少于國外。

      03

      大模型下半場,

      數據標注地位正在反轉

      隨著AI技術的快速迭代,業界曾一度流傳一種觀點:AI標注與合成數據將徹底取代人工標注。但就目前的技術現實而言,這種可能性依然遙遠。

      AI標注的前提,是數據結構和規則高度明確,并且有充足的歷史樣本支撐。因此,它的應用范圍天然受限,目前仍只能覆蓋交通圖像、人臉識別等較為標準化的任務。

      在工作流上,AI主要替代的是標注的中游環節,而規則制定、質量把關等關鍵節點,仍然需要人工介入。

      與此同時,隨著大模型逐漸強調垂直化場景,訓練重心也從預訓練轉向了強化學習。不同于預訓練對數據質量要求相對寬松,強化學習更依賴高精細度和專業化數據,常常涉及醫療影像、法律文本、情感語言等高門檻領域。

      這種變化使得標注員的角色愈發復雜。

      他們不僅要具備專業知識,還需要抽象思維與跨學科能力。正如一位業內人士所說,如今的任務往往牽涉推理鏈條、多模態對齊等新場景,“早已不是簡單的框選和分類能夠解決的”。

      Surge AI就是這一趨勢的典型代表。該公司自2020年創立起,就將核心放在高質量數據的生成上,例如為編程模型提供優質代碼數據,以提升模型性能。憑借這種定位,SurgeAI在2024年的營收已達到10億美元,甚至超越了行業老大Scale AI的8.7億美元。

      另一條被寄予厚望的替代路徑是合成數據。理論上,它能夠在數據不足時填補空缺,但現實問題不容忽視:合成數據畢竟是在既有條件下生成的,當現實場景發生變化,它難以保持有效性;同時,數據安全風險也限制了其大規模泛化的可能。

      從這個角度來看,數據標注并不會消失,而是會向更高質量、更強專業化方向演進。

      回顧過去,數據標注長期被視為“三駕馬車”里最弱的一環:算法有OpenAI,算力有英偉達,而在數據標注領域,即便是行業龍頭Scale AI,其市值也不到OpenAI的十分之一。

      究其原因,很大程度上源于行業門檻低、收入上限有限。但當AI模型訓練進入下半場,數據標注的技術壁壘被不斷拔高,Meta對Scale AI的收購,只是一個開始,在不遠的將來,數據資源正在被推向產業競爭的核心。

      本文系新眸原創,申請轉載授權、商務合作請聯系微信: ycj841642330,添加好友請備注公司和職位。

      更多內容,點擊下方關注

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      終于有個日本將軍,把窗戶紙給捅破了:再打仗,日本可能就沒了

      終于有個日本將軍,把窗戶紙給捅破了:再打仗,日本可能就沒了

      李子櫥
      2025-11-06 21:30:03
      兒子瑞士留學被拒收!沈伯洋搞分裂,代價由全家買單!

      兒子瑞士留學被拒收!沈伯洋搞分裂,代價由全家買單!

      娛樂圈的筆娛君
      2025-11-07 05:46:03
      亞冠激烈沖突!張玉寧遭“胯下之辱”,法比奧暴怒,6人互相推搡

      亞冠激烈沖突!張玉寧遭“胯下之辱”,法比奧暴怒,6人互相推搡

      奧拜爾
      2025-11-06 21:06:17
      陳夢0-3慘敗小將,簡直不敢相信

      陳夢0-3慘敗小將,簡直不敢相信

      好乒乓
      2025-11-06 12:56:23
      一樓盤現“飲料瓶砌墻”?調查結果公布:系非承重墻,已完成整改維修,致歉后獲業主諒解

      一樓盤現“飲料瓶砌墻”?調查結果公布:系非承重墻,已完成整改維修,致歉后獲業主諒解

      環球網資訊
      2025-11-06 19:57:08
      梅德韋杰夫心里清楚,無論俄羅斯打輸打贏,都將是他的上位機會

      梅德韋杰夫心里清楚,無論俄羅斯打輸打贏,都將是他的上位機會

      男女那點事兒兒
      2025-11-07 06:34:27
      中方正式發文通知,一分不差地按時履行承諾,狠狠打了美方一巴掌

      中方正式發文通知,一分不差地按時履行承諾,狠狠打了美方一巴掌

      阿七說史
      2025-11-06 17:56:50
      余文杰,擬任正廳級領導職務

      余文杰,擬任正廳級領導職務

      魯中晨報
      2025-11-07 07:15:01
      王祖藍自曝怕不能活過明年,已立遺囑財產歸太太,父親46歲離世成心坎

      王祖藍自曝怕不能活過明年,已立遺囑財產歸太太,父親46歲離世成心坎

      In風尚
      2025-10-28 18:26:15
      看張雪峰復出后反復橫跳,我說點憋很久的真相!

      看張雪峰復出后反復橫跳,我說點憋很久的真相!

      媽咪OK
      2025-11-06 17:05:50
      上海地鐵“霸腿”老人身份曝光!有網友自稱是鄰居,爆料更多內幕

      上海地鐵“霸腿”老人身份曝光!有網友自稱是鄰居,爆料更多內幕

      哄動一時啊
      2025-11-06 14:40:21
      董卿的現狀,老父親后悔自責:她嫁密春雷,是我沒攔住

      董卿的現狀,老父親后悔自責:她嫁密春雷,是我沒攔住

      君好伴讀
      2025-09-22 12:49:18
      墻倒眾人推?這次向太的爆料,撕碎王家衛僅剩的體面,蔡瀾沒說謊

      墻倒眾人推?這次向太的爆料,撕碎王家衛僅剩的體面,蔡瀾沒說謊

      鄉野小珥
      2025-11-06 05:52:06
      與陳曉閃婚領證傳聞真相大白1個多月,毛曉彤近況曝出,并不意外

      與陳曉閃婚領證傳聞真相大白1個多月,毛曉彤近況曝出,并不意外

      喜歡歷史的阿繁
      2025-11-06 13:03:13
      阿富汗地震損傷慘重,全球集體沉默,無人支援?中國緊急發聲!

      阿富汗地震損傷慘重,全球集體沉默,無人支援?中國緊急發聲!

      歷史有些冷
      2025-11-06 19:55:03
      馬斯克說對了!繼芯片后又一東西全球瘋搶,中國或成最大受益者

      馬斯克說對了!繼芯片后又一東西全球瘋搶,中國或成最大受益者

      史紀文譚
      2025-11-06 15:46:54
      354票贊成,15票棄權。泰國為泰黨就這么選出了新老大。

      354票贊成,15票棄權。泰國為泰黨就這么選出了新老大。

      百態人間
      2025-11-06 05:50:03
      郭可盈在香港買37萬國產電車,與丈夫現身提車,林文龍打扮好時尚

      郭可盈在香港買37萬國產電車,與丈夫現身提車,林文龍打扮好時尚

      黔鄉小姊妹
      2025-11-06 11:23:26
      勁爆!汪峰沉默了,森林北也沉默了,就連葛薈婕也沉默了!

      勁爆!汪峰沉默了,森林北也沉默了,就連葛薈婕也沉默了!

      情感大頭說說
      2025-11-06 13:13:56
      年薪1億起,李嘉誠管家霍建寧再添座駕,網友:首輛白色紅旗國禮

      年薪1億起,李嘉誠管家霍建寧再添座駕,網友:首輛白色紅旗國禮

      總李談車
      2025-11-06 18:45:18
      2025-11-07 10:36:49
      新眸深度 incentive-icons
      新眸深度
      看見商業另一面。
      1358文章數 2459關注度
      往期回顧 全部

      科技要聞

      75%贊成!特斯拉股東同意馬斯克天價薪酬

      頭條要聞

      耿爽:既然美方直接點名 那我也就不再含蓄了

      頭條要聞

      耿爽:既然美方直接點名 那我也就不再含蓄了

      體育要聞

      送走兩位全明星,公牛成了東部第一

      娛樂要聞

      白百何回應東京電影節爭議

      財經要聞

      老登們的社交貨幣全崩了

      汽車要聞

      小鵬X9增程版綜合續航1606公里 有底氣挑戰賽那?

      態度原創

      游戲
      房產
      本地
      家居
      藝術

      《天國:拯救2》已在Steam/Xbox開啟四天免費試玩

      房產要聞

      錨定居住新趨勢!廣佛新世界重構灣區“理想生活投資學”

      本地新聞

      這屆干飯人,已經把博物館吃成了食堂

      家居要聞

      別樣府院 暢享詩意生活

      藝術要聞

      毛主席書法獨特魅力,學習難度為何如此之高?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产午夜亚洲精品国产成人| 国产午夜亚洲精品国产成人| 成人性影院| 日韩中文字幕高清有码| 中文字幕无码成人免费视频| 日本一区二区三区视频一| 亚洲春色在线视频| 成人亚洲国产精品一区不卡| 国99久9在线 | 免费| 岑巩县| 亚洲精品人妻中文字幕| 精品无码国产自产拍在线观看蜜| 国产粉嫩美女一区二区三| 18禁无遮挡啪啪无码网站破解版| 欧美 亚洲 中文 国产 综合| 久久精品夜色国产亚洲av| 国产日韩综合av在线| 天天做天天躁天天躁| 国产福利酱国产一区二区| 久久久久青草线蕉综合超碰| 成人国产精品一区二区网站公司 | 亚洲一区二区三区激情视频 | 亚洲理论在线A中文字幕| 人妻少妇精品视频三区二区| 不卡一区二区国产精品| 长武县| 色老头亚洲成人免费影院| 日韩中文字幕一二三视频| 亚洲成熟女人毛毛耸耸多| 国产仑乱无码内谢| 久久国产综合色免费观看| 99热国产这里只有精品9| 民勤县| 亚洲自在精品网久久一区| 国产成人午夜福利精品| 国产成人亚洲精品狼色在线| 自拍第一区视频在线观看| 亚洲无人区一区二区三区| 国产麻豆精品久久一二三| 精品一区二区中文字幕| 果冻传媒一区二区天美传媒|