一張街景,人類一眼能看出“車、人、紅綠燈、樓房、馬路”;AI看到的只是一堆0-255的像素矩陣。給數(shù)據(jù)打標(biāo),就是給AI“翻譯世界”。數(shù)據(jù)標(biāo)注師,應(yīng)運(yùn)而生。
在武漢理工大學(xué)科技園,覽易(武漢)智能數(shù)據(jù)服務(wù)有限公司有一支500多人的數(shù)據(jù)標(biāo)注師隊伍,分布在省內(nèi)外多個城市,平均年齡不到30歲。
27歲的恩施女孩黃雨晨就是其中一員。她2020年入職覽易智能,現(xiàn)已從普通“數(shù)據(jù)標(biāo)注師”成長為“項目經(jīng)理”。
讓人意外的是,她的大學(xué)專業(yè)居然是漢語言文學(xué)。在數(shù)據(jù)、代碼、算法滿天飛的AI賽道,一名文科生居然擠進(jìn)了核心崗位。
![]()
圖為覽易(武漢)智能數(shù)據(jù)服務(wù)有限公司“數(shù)據(jù)標(biāo)注”業(yè)務(wù)項目經(jīng)理黃雨晨。(記者劉天縱攝)
新手入門不算太難
披著齊肩短發(fā)、戴著黑框眼鏡、穿著休閑T恤、揣著平板電腦和幾本書……在覽易智能門外初見黃雨晨,以為是去圖書館上自習(xí)的女大學(xué)生。
打開辦公電腦,畫面令人眼前一亮——連片的點(diǎn)狀圖、彩色的標(biāo)注框、交錯的標(biāo)記線等,構(gòu)成了一幅幅“賽博”風(fēng)格的城市街景圖。
“這就是數(shù)據(jù)標(biāo)注——給文本、圖片、視頻、語音等各類數(shù)據(jù)‘打標(biāo)簽’‘寫說明’‘加備注’,方便AI大模型學(xué)習(xí)理解。”黃雨晨解釋道。
AI產(chǎn)業(yè)的三要素分別是數(shù)據(jù)、算力和算法。其中,數(shù)據(jù)是AI的“營養(yǎng)來源”,算力是“肌肉力量”,算法是“思考方式”,數(shù)據(jù)標(biāo)注就是給AI制造“口糧”,將原始數(shù)據(jù)加工成機(jī)器學(xué)習(xí)算法可識別的內(nèi)容。
如,一張城市街景圖,需要人用專業(yè)軟件,標(biāo)注出汽車、行人、道路、紅綠燈、建筑、綠化帶、車道線等各類元素,以訓(xùn)練AI大模型的“眼力”和“腦力”。
數(shù)據(jù)標(biāo)注工作好上手嗎?
“只要學(xué)習(xí)能力強(qiáng)、耐心細(xì)致、且能熟練操作電腦,上手入門并不算太難。”黃雨晨透露,2020年大學(xué)畢業(yè)那年,湖北數(shù)據(jù)標(biāo)注產(chǎn)業(yè)剛開始興起,從業(yè)人員缺口大,抱著試一試的心態(tài),她向覽易智能投了簡歷。
新手任務(wù)都是入門級的。如,給汽車攝像頭拍攝的照片做標(biāo)注。這對黃雨晨而言,類似于用專業(yè)軟件“P相片”,這正是女生愛好且擅長的。每張照片上的行人、車輛、道路等元素加起來,大約有60個“標(biāo)注框”,黃雨晨每天能處理50至60張這樣的照片,成為新職員中的佼佼者。
AI對數(shù)據(jù)“食材”的要求越來越高
精修兩三張照片,或許小有樂趣。若一天要精修幾十乃至上百張照片,難免心生厭倦。想當(dāng)好數(shù)據(jù)標(biāo)注師,就要不厭其煩。
“比起照相館的精修相片,數(shù)據(jù)標(biāo)注圖像的精度要求高多了。”黃雨晨說,入行的第一年,她主要處理二維圖像數(shù)據(jù),即車載攝像頭拍攝的照片。
每張照片標(biāo)注完后,公司會有專門的質(zhì)檢人員來檢查標(biāo)注質(zhì)量,誤差不能超過1個像素點(diǎn)。
如24英寸的顯示屏,分辨率調(diào)成1920(寬)×1080(高)后,每個像素點(diǎn)長寬不到0.3毫米。黃雨晨標(biāo)注一個人或一輛車,相當(dāng)于在像素點(diǎn)“萬花筒”中精準(zhǔn)“摳圖”。圖像數(shù)據(jù)標(biāo)注誤差每提高1%,AI大模型訓(xùn)練效果就會降低幾十倍。
黃雨晨稱,數(shù)據(jù)標(biāo)注師每天的工作按“計件”考核,效率高的人可以多勞多得,標(biāo)注速度慢、質(zhì)量不高的人,只能花更多的時間和精力來補(bǔ)短板。
此外,車企投來的訂單多涉及新車型研發(fā)和排產(chǎn)計劃,要求數(shù)據(jù)標(biāo)注師每天必須按節(jié)點(diǎn)完成工作任務(wù),一刻也拖不得,所以熬夜加班是常態(tài)。
因業(yè)績突出,黃雨晨一路從數(shù)據(jù)標(biāo)注師、小組長、項目主管成長為項目經(jīng)理,統(tǒng)籌覽易智能多個項目的培訓(xùn)、客戶對接、排產(chǎn)、交付等工作。她經(jīng)手的項目類型,也從汽車領(lǐng)域,延展到工業(yè)制造、智能安防、新零售、醫(yī)療、金融等多個行業(yè)。
“AI大模型幾乎每三四個月就迭代一次,市場對數(shù)據(jù)標(biāo)注的需求越來越大,標(biāo)注的內(nèi)容也越來越復(fù)雜。”黃雨晨說。
以自動駕駛為例,黃雨晨參加工作的前幾年,主要標(biāo)注車載攝像頭拍攝的二維圖像數(shù)據(jù),框出圖像中的車輛、行人、交通標(biāo)志等目標(biāo)。
由于二維圖像數(shù)據(jù)無法感知距離和空間,由激光雷達(dá)、毫米波雷達(dá)生成的三維點(diǎn)云數(shù)據(jù)標(biāo)注快速發(fā)展。
然而,自動駕駛車輛在行駛過程中,周遭環(huán)境是動態(tài)的,三維點(diǎn)云數(shù)據(jù)僅提供了靜態(tài)的空間場景,因此包含時序信息的四維標(biāo)注于2024年開始興起,能更全面地描述物體的運(yùn)動軌跡、形態(tài)變化以及與環(huán)境之間的互動關(guān)系。
目前,從蔚來、理想、吉利、東風(fēng)、長安等車企向覽易智能發(fā)來的訂單看,四維點(diǎn)云數(shù)據(jù)標(biāo)注已成主流。
“這說明中國自動駕駛技術(shù)在飛速發(fā)展,AI對數(shù)據(jù)‘食材’的要求越來越高。”黃雨晨說。
幫AI擺脫“精神內(nèi)耗”
黃雨晨將人工智能產(chǎn)業(yè)解構(gòu)為“人工+智能”,AI大模型越來越聰明的背后,是廣大數(shù)據(jù)標(biāo)注師日以繼夜的默默奉獻(xiàn)。
覽易智能創(chuàng)始人、總經(jīng)理張雪嬌是名“90后”,黃雨晨等數(shù)據(jù)標(biāo)注師一路成長的艱辛,她看在眼里。
張雪嬌透露,最近幾年,國內(nèi)每年都會新增幾百家數(shù)據(jù)標(biāo)注企業(yè)。
“企業(yè)要在智力密集型行業(yè)里生存下來,必須要有自己的‘技術(shù)護(hù)城河’。”張雪嬌介紹,借助武漢理工大學(xué)在汽車產(chǎn)業(yè)領(lǐng)域的背景優(yōu)勢,覽易智能從廣大車企的數(shù)據(jù)標(biāo)注需求破題,自主研發(fā)了“l(fā)ine”數(shù)據(jù)標(biāo)注與管理平臺,可實(shí)現(xiàn)數(shù)據(jù)“采集-清洗-脫敏-標(biāo)注-質(zhì)檢-訓(xùn)練”等一站式處理。
“l(fā)ine”平臺最立竿見影的效果是提升數(shù)據(jù)標(biāo)注效率和質(zhì)量,為數(shù)據(jù)標(biāo)注師減負(fù)。
以四維點(diǎn)云圖像數(shù)據(jù)為例,每張點(diǎn)云圖像包含100至500幀畫面,每一幀畫面都至少要標(biāo)注上百個點(diǎn)、線、框。若讓人純手工標(biāo)注,幾個小時離不開座位。
而“l(fā)ine”平臺能自動完成70%以上的預(yù)標(biāo)注任務(wù),支持多人、多團(tuán)隊協(xié)同標(biāo)注,并能提供智能質(zhì)檢功能。數(shù)據(jù)標(biāo)注師需要做的就是幫AI查缺補(bǔ)漏,提升整體標(biāo)注效率30%以上。
擁有高質(zhì)量的數(shù)據(jù)集,才能訓(xùn)練出高質(zhì)量的AI大模型。加工者越細(xì)致、越專業(yè),數(shù)據(jù)集的質(zhì)量越高。就像醫(yī)療影像數(shù)據(jù),主任醫(yī)師的手工標(biāo)注質(zhì)量,大概率高于醫(yī)學(xué)院大學(xué)生。
目前,金融、醫(yī)療、具身智能等行業(yè)已成為企業(yè)新的訂單增長點(diǎn)。張雪嬌認(rèn)為,數(shù)據(jù)標(biāo)注行業(yè)已進(jìn)入高速發(fā)展期,對人才需求量巨大,湖北作為科教大省,擁有得天獨(dú)厚的優(yōu)勢。
覽易智能成立5年來,協(xié)同相關(guān)高校開展技能培訓(xùn),已累計培訓(xùn)數(shù)據(jù)標(biāo)注人才上萬人次,讓就業(yè)真正“長”在了產(chǎn)業(yè)上。
來源:湖北日報(記者 劉天縱)
(來源:湖北日報)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.