明敏 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
原來,Scaling Law在32年前就被提出了!
不是2020年的OpenAI、不是2017年的百度,而是1993年的貝爾實(shí)驗(yàn)室。
![]()
在一篇名為《Learning Curves: Asymptotic Values and Rate of Convergence》的文章里提出一種預(yù)測(cè)方法:
訓(xùn)練誤差和測(cè)試誤差隨訓(xùn)練規(guī)模增加,都會(huì)收斂到同一個(gè)漸近誤差值,這種收斂符合冪律形式。
通過這種方法,研究人員可以預(yù)測(cè)模型在更大數(shù)據(jù)集上的表現(xiàn)。
![]()
這和現(xiàn)在大家常提的Scaling Law幾乎一致:
在合理的范圍內(nèi),通過簡(jiǎn)單地增加模型參數(shù)量(N)、訓(xùn)練數(shù)據(jù)量(D)和計(jì)算量(FLOPS,C),可以以一種可預(yù)測(cè)的、平滑的方式顯著提升模型性能。
而1993年的這篇論文來頭也不小,作者一共5位,其中包含了支持向量機(jī)的提出者Vladimir Vapnik和Corinna Cortes。
![]()
為省算力提出預(yù)測(cè)曲線
這篇論文的研究初衷是為了節(jié)省訓(xùn)練分類器(classifiers)的計(jì)算資源(果然啥時(shí)候都缺算力)。
當(dāng)時(shí)的機(jī)器學(xué)習(xí)算法能實(shí)現(xiàn)將輸入數(shù)據(jù)分配到某個(gè)類別里,比如輸入一張手寫數(shù)字的像素點(diǎn),判斷它是不是某一個(gè)數(shù)組。
為了讓分類器更可靠,往往需要使用大規(guī)模數(shù)據(jù)庫訓(xùn)練。但是研究人員并不確定分類器是否適合給定任務(wù),因此開發(fā)高效的預(yù)測(cè)程序非常有必要。
這項(xiàng)研究就是提出了一種預(yù)測(cè)方法,先在中等規(guī)模的數(shù)據(jù)集上訓(xùn)練,然后通過提出的學(xué)習(xí)曲線建模外推,預(yù)測(cè)其在大數(shù)據(jù)集上的表現(xiàn)。這樣就不用對(duì)分類器進(jìn)行完整訓(xùn)練,從而節(jié)省計(jì)算資源。
它首先在幾個(gè)中等規(guī)模訓(xùn)練集上分別計(jì)算測(cè)試誤差、訓(xùn)練誤差,然后他們發(fā)現(xiàn),隨著訓(xùn)練集的規(guī)模變大,訓(xùn)練誤差和測(cè)試誤差都會(huì)收斂到一個(gè)相同的漸近值a,這個(gè)指數(shù)a在0.5-1之間。
![]()
- a:漸近誤差(最終無法消除的誤差,比如任務(wù)不可實(shí)現(xiàn)性導(dǎo)致的殘余錯(cuò)誤)。
- b,c:幅度參數(shù)。
- α:收斂速率指數(shù)(通常在 0.5~1 之間)
然后變換為對(duì)數(shù)線性關(guān)系,在對(duì)數(shù)坐標(biāo)下得到兩條直線。
![]()
通過擬合這兩條直線能得到a,b,α。
將估計(jì)出的冪律曲線外推到更大的訓(xùn)練集規(guī)模上(比如60000),預(yù)測(cè)分類器在完整數(shù)據(jù)上的誤差。
實(shí)驗(yàn)結(jié)果表明,在線性分類器(布爾分類任務(wù))中預(yù)測(cè)非常準(zhǔn)確。
![]()
在多層神經(jīng)網(wǎng)絡(luò)(如LeNet)中,即便在任務(wù)不可實(shí)現(xiàn)(non-realizable)的情況下,外推結(jié)果也能很好地預(yù)測(cè)大規(guī)模訓(xùn)練的最終表現(xiàn)。
比如僅用12000樣本訓(xùn)練,就能預(yù)測(cè)新CNN在60000樣本上會(huì)優(yōu)于舊CNN。
![]()
此外作者還發(fā)現(xiàn),任務(wù)越困難,漸近誤差越高,收斂速率越小,即學(xué)習(xí)越慢。
![]()
這個(gè)理論放在當(dāng)時(shí)可以用來淘汰差的模型,將有限的計(jì)算資源放在更值得訓(xùn)練的模型上。
作者也是支持向量機(jī)提出者
最后不得不提一下這篇研究的幾位作者。
首先來看Vladimir Vapnik,他因在統(tǒng)計(jì)學(xué)習(xí)理論和支持向量機(jī)方面的貢獻(xiàn)而聞名。
![]()
他于1958年在烏茲別克國立大學(xué)獲得數(shù)學(xué)碩士學(xué)位,并于1964年在莫斯科控制科學(xué)研究所獲得統(tǒng)計(jì)學(xué)博士學(xué)位。1961年至1990年期間,他一直在該研究所工作,并擔(dān)任計(jì)算機(jī)科學(xué)研究部門的負(fù)責(zé)人。
Vapnik與Alexey Chervonenkis在1960年至1990年間共同開發(fā)了Vapnik-Chervonenkis理論(也稱為VC理論)。該理論是計(jì)算學(xué)習(xí)理論的一種形式,旨在從統(tǒng)計(jì)學(xué)角度解釋學(xué)習(xí)過程。
它是統(tǒng)計(jì)學(xué)習(xí)理論的基石,為學(xué)習(xí)算法的泛化條件提供了理論基礎(chǔ),并量化了模型的復(fù)雜性(通過VC維)。VC理論在無需定義任何先驗(yàn)分布的情況下,為機(jī)器學(xué)習(xí)提供了一種更通用的方法,與貝葉斯理論形成了對(duì)比。
同時(shí)Vapnik也是支持向量機(jī)(SVM)的主要發(fā)明者。這是一種監(jiān)督學(xué)習(xí)模型,用于數(shù)據(jù)分類和回歸分析。1964年,Vapnik和Chervonenkis首次提出了原始的SVM算法。
1990年代,Vapnik加入貝爾實(shí)驗(yàn)室開始進(jìn)行機(jī)器學(xué)習(xí)方面的深入研究。在1992年他和Bernhard Boser、Isabelle Guyon提出了通過應(yīng)用“核技巧”(kernel trick)來創(chuàng)建非線性分類器的方法,極大地?cái)U(kuò)展了SVM的應(yīng)用范圍,使其能夠處理非線性可分問題。
1995年Vapnik和Corinna Cortes提出了軟邊距的非線性SVM并將其應(yīng)用于手寫字符識(shí)別問題,因?yàn)樾阅鼙憩F(xiàn)出色,這篇論文引發(fā)廣泛關(guān)注,也成為機(jī)器學(xué)習(xí)發(fā)展中的一塊重要基石。
![]()
他撰寫的《統(tǒng)計(jì)學(xué)理論的本質(zhì)》也是機(jī)器學(xué)習(xí)領(lǐng)域的必讀著作之一。
以及他2014年還給Facebook當(dāng)過顧問。
![]()
另一位重要作者是Corinna Cortes。她現(xiàn)在是Google Research紐約分部的副總裁,負(fù)責(zé)廣泛的理論和應(yīng)用大規(guī)模機(jī)器學(xué)習(xí)問題研究。
她于1989年在哥本哈根大學(xué)尼爾斯·玻爾研究所獲得物理學(xué)碩士學(xué)位。隨后,她于1993年在羅切斯特大學(xué)獲得計(jì)算機(jī)科學(xué)博士學(xué)位。
在加入Google之前,Cortes在貝爾實(shí)驗(yàn)室工作了十多年。
2022年她被任命為ACM Fellow,以表彰她對(duì)機(jī)器學(xué)習(xí)領(lǐng)域的貢獻(xiàn)。
![]()
其余幾位作者分別是:L. D. Jackel、Sara A. Solla和John S. Denker
其中John S. Denker還和LeCun在手寫識(shí)別上合作過多篇論文,也都是機(jī)器學(xué)習(xí)經(jīng)典大作了。
![]()
![]()
而他本人也相當(dāng)全能,涉獵領(lǐng)域包括機(jī)器學(xué)習(xí)、系統(tǒng)安全、好萊塢特效、電子游戲和視頻游戲等,完成了很多開創(chuàng)性工作。還曾在加州理工學(xué)院創(chuàng)建并教授“微處理器設(shè)計(jì)”課程(硅谷之所以成為硅谷,和當(dāng)時(shí)美國高校中開始推行芯片設(shè)計(jì)課程有很大關(guān)系)。
甚至,他還是一個(gè)飛行員,是FFA的航空安全顧問,并寫了一本對(duì)飛行原理解釋透徹的行業(yè)教科書。
Denker還曾于1986-87年擔(dān)任加州大學(xué)圣巴巴拉分校理論物理研究所的訪問教授。 他以幽默感和“原型瘋狂科學(xué)家”的形象而聞名,他的一些事跡甚至在一些電影中有所體現(xiàn)。
![]()
One More Thing
值得一提的是,卷積神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)都誕生于貝爾實(shí)驗(yàn)室。它們之間過一段“分庭抗禮”的時(shí)期。
在深度學(xué)習(xí)興起之前,CNN因?yàn)椤昂诤小币约靶枰笠?guī)模訓(xùn)練,一些研究者對(duì)其持有保留態(tài)度;相比之下支持向量機(jī)的理論清晰、易于收斂到全局最優(yōu)解。到底誰是正確路線?一時(shí)爭(zhēng)論不休。
1995年,Vapnik還和當(dāng)時(shí)的上司Larry Jackel以一頓豪華晚餐打賭,到2000年時(shí),人們能不能解釋清楚大型神經(jīng)網(wǎng)絡(luò)為什么在大規(guī)模訓(xùn)練中表現(xiàn)很好?
Vapnik覺得不能。2000年他贏了;隨后他們又賭,再過5年結(jié)果如何?這一次Vapnik錯(cuò)了:
在2005年任何頭腦清醒的人都不會(huì)再用和1995年時(shí)完全相同的模型了。
這場(chǎng)賭局,LeCun是見證人。
![]()
論文地址:
https://proceedings.neurips.cc/paper/1993/file/1aa48fc4880bb0c9b8a3bf979d3b917e-Paper.pdf
[1]https://x.com/gdb/status/1962594235263427045
[2]https://yorko.github.io/2022/vapnik-jackel-bet/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.