網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

他們?cè)?993年就提出了Scaling Law

2025-09-03 10:24:41　來源: 量子位

北京舉報(bào)

分享至

明敏發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

原來，Scaling Law在32年前就被提出了！

不是2020年的OpenAI、不是2017年的百度，而是1993年的貝爾實(shí)驗(yàn)室。

在一篇名為《Learning Curves: Asymptotic Values and Rate of Convergence》的文章里提出一種預(yù)測(cè)方法：

訓(xùn)練誤差和測(cè)試誤差隨訓(xùn)練規(guī)模增加，都會(huì)收斂到同一個(gè)漸近誤差值，這種收斂符合冪律形式。

通過這種方法，研究人員可以預(yù)測(cè)模型在更大數(shù)據(jù)集上的表現(xiàn)。

這和現(xiàn)在大家常提的Scaling Law幾乎一致：

在合理的范圍內(nèi)，通過簡(jiǎn)單地增加模型參數(shù)量（N）、訓(xùn)練數(shù)據(jù)量（D）和計(jì)算量（FLOPS，C），可以以一種可預(yù)測(cè)的、平滑的方式顯著提升模型性能。

而1993年的這篇論文來頭也不小，作者一共5位，其中包含了支持向量機(jī)的提出者Vladimir Vapnik和Corinna Cortes。

為省算力提出預(yù)測(cè)曲線

這篇論文的研究初衷是為了節(jié)省訓(xùn)練分類器（classifiers）的計(jì)算資源（果然啥時(shí)候都缺算力）。

當(dāng)時(shí)的機(jī)器學(xué)習(xí)算法能實(shí)現(xiàn)將輸入數(shù)據(jù)分配到某個(gè)類別里，比如輸入一張手寫數(shù)字的像素點(diǎn)，判斷它是不是某一個(gè)數(shù)組。

為了讓分類器更可靠，往往需要使用大規(guī)模數(shù)據(jù)庫訓(xùn)練。但是研究人員并不確定分類器是否適合給定任務(wù)，因此開發(fā)高效的預(yù)測(cè)程序非常有必要。

這項(xiàng)研究就是提出了一種預(yù)測(cè)方法，先在中等規(guī)模的數(shù)據(jù)集上訓(xùn)練，然后通過提出的學(xué)習(xí)曲線建模外推，預(yù)測(cè)其在大數(shù)據(jù)集上的表現(xiàn)。這樣就不用對(duì)分類器進(jìn)行完整訓(xùn)練，從而節(jié)省計(jì)算資源。

它首先在幾個(gè)中等規(guī)模訓(xùn)練集上分別計(jì)算測(cè)試誤差、訓(xùn)練誤差，然后他們發(fā)現(xiàn)，隨著訓(xùn)練集的規(guī)模變大，訓(xùn)練誤差和測(cè)試誤差都會(huì)收斂到一個(gè)相同的漸近值a，這個(gè)指數(shù)a在0.5-1之間。

a：漸近誤差（最終無法消除的誤差，比如任務(wù)不可實(shí)現(xiàn)性導(dǎo)致的殘余錯(cuò)誤）。
b,c：幅度參數(shù)。
α：收斂速率指數(shù)（通常在 0.5~1 之間）

然后變換為對(duì)數(shù)線性關(guān)系，在對(duì)數(shù)坐標(biāo)下得到兩條直線。

通過擬合這兩條直線能得到a,b,α。

將估計(jì)出的冪律曲線外推到更大的訓(xùn)練集規(guī)模上（比如60000），預(yù)測(cè)分類器在完整數(shù)據(jù)上的誤差。

實(shí)驗(yàn)結(jié)果表明，在線性分類器（布爾分類任務(wù)）中預(yù)測(cè)非常準(zhǔn)確。

在多層神經(jīng)網(wǎng)絡(luò)（如LeNet）中，即便在任務(wù)不可實(shí)現(xiàn)（non-realizable）的情況下，外推結(jié)果也能很好地預(yù)測(cè)大規(guī)模訓(xùn)練的最終表現(xiàn)。

比如僅用12000樣本訓(xùn)練，就能預(yù)測(cè)新CNN在60000樣本上會(huì)優(yōu)于舊CNN。

此外作者還發(fā)現(xiàn)，任務(wù)越困難，漸近誤差越高，收斂速率越小，即學(xué)習(xí)越慢。

這個(gè)理論放在當(dāng)時(shí)可以用來淘汰差的模型，將有限的計(jì)算資源放在更值得訓(xùn)練的模型上。

作者也是支持向量機(jī)提出者

最后不得不提一下這篇研究的幾位作者。

首先來看Vladimir Vapnik，他因在統(tǒng)計(jì)學(xué)習(xí)理論和支持向量機(jī)方面的貢獻(xiàn)而聞名。

他于1958年在烏茲別克國立大學(xué)獲得數(shù)學(xué)碩士學(xué)位，并于1964年在莫斯科控制科學(xué)研究所獲得統(tǒng)計(jì)學(xué)博士學(xué)位。1961年至1990年期間，他一直在該研究所工作，并擔(dān)任計(jì)算機(jī)科學(xué)研究部門的負(fù)責(zé)人。

Vapnik與Alexey Chervonenkis在1960年至1990年間共同開發(fā)了Vapnik-Chervonenkis理論（也稱為VC理論）。該理論是計(jì)算學(xué)習(xí)理論的一種形式，旨在從統(tǒng)計(jì)學(xué)角度解釋學(xué)習(xí)過程。

它是統(tǒng)計(jì)學(xué)習(xí)理論的基石，為學(xué)習(xí)算法的泛化條件提供了理論基礎(chǔ)，并量化了模型的復(fù)雜性（通過VC維）。VC理論在無需定義任何先驗(yàn)分布的情況下，為機(jī)器學(xué)習(xí)提供了一種更通用的方法，與貝葉斯理論形成了對(duì)比。

同時(shí)Vapnik也是支持向量機(jī)（SVM）的主要發(fā)明者。這是一種監(jiān)督學(xué)習(xí)模型，用于數(shù)據(jù)分類和回歸分析。1964年，Vapnik和Chervonenkis首次提出了原始的SVM算法。

1990年代，Vapnik加入貝爾實(shí)驗(yàn)室開始進(jìn)行機(jī)器學(xué)習(xí)方面的深入研究。在1992年他和Bernhard Boser、Isabelle Guyon提出了通過應(yīng)用“核技巧”（kernel trick）來創(chuàng)建非線性分類器的方法，極大地?cái)U(kuò)展了SVM的應(yīng)用范圍，使其能夠處理非線性可分問題。

1995年Vapnik和Corinna Cortes提出了軟邊距的非線性SVM并將其應(yīng)用于手寫字符識(shí)別問題，因?yàn)樾阅鼙憩F(xiàn)出色，這篇論文引發(fā)廣泛關(guān)注，也成為機(jī)器學(xué)習(xí)發(fā)展中的一塊重要基石。

他撰寫的《統(tǒng)計(jì)學(xué)理論的本質(zhì)》也是機(jī)器學(xué)習(xí)領(lǐng)域的必讀著作之一。

以及他2014年還給Facebook當(dāng)過顧問。

另一位重要作者是Corinna Cortes。她現(xiàn)在是Google Research紐約分部的副總裁，負(fù)責(zé)廣泛的理論和應(yīng)用大規(guī)模機(jī)器學(xué)習(xí)問題研究。

她于1989年在哥本哈根大學(xué)尼爾斯·玻爾研究所獲得物理學(xué)碩士學(xué)位。隨后，她于1993年在羅切斯特大學(xué)獲得計(jì)算機(jī)科學(xué)博士學(xué)位。

在加入Google之前，Cortes在貝爾實(shí)驗(yàn)室工作了十多年。

2022年她被任命為ACM Fellow，以表彰她對(duì)機(jī)器學(xué)習(xí)領(lǐng)域的貢獻(xiàn)。

其余幾位作者分別是：L. D. Jackel、Sara A. Solla和John S. Denker

其中John S. Denker還和LeCun在手寫識(shí)別上合作過多篇論文，也都是機(jī)器學(xué)習(xí)經(jīng)典大作了。

而他本人也相當(dāng)全能，涉獵領(lǐng)域包括機(jī)器學(xué)習(xí)、系統(tǒng)安全、好萊塢特效、電子游戲和視頻游戲等，完成了很多開創(chuàng)性工作。還曾在加州理工學(xué)院創(chuàng)建并教授“微處理器設(shè)計(jì)”課程（硅谷之所以成為硅谷，和當(dāng)時(shí)美國高校中開始推行芯片設(shè)計(jì)課程有很大關(guān)系）。

甚至，他還是一個(gè)飛行員，是FFA的航空安全顧問，并寫了一本對(duì)飛行原理解釋透徹的行業(yè)教科書。

Denker還曾于1986-87年擔(dān)任加州大學(xué)圣巴巴拉分校理論物理研究所的訪問教授。他以幽默感和“原型瘋狂科學(xué)家”的形象而聞名，他的一些事跡甚至在一些電影中有所體現(xiàn)。

One More Thing

值得一提的是，卷積神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)都誕生于貝爾實(shí)驗(yàn)室。它們之間過一段“分庭抗禮”的時(shí)期。

在深度學(xué)習(xí)興起之前，CNN因?yàn)椤昂诤小币约靶枰笠?guī)模訓(xùn)練，一些研究者對(duì)其持有保留態(tài)度；相比之下支持向量機(jī)的理論清晰、易于收斂到全局最優(yōu)解。到底誰是正確路線？一時(shí)爭(zhēng)論不休。

1995年，Vapnik還和當(dāng)時(shí)的上司Larry Jackel以一頓豪華晚餐打賭，到2000年時(shí)，人們能不能解釋清楚大型神經(jīng)網(wǎng)絡(luò)為什么在大規(guī)模訓(xùn)練中表現(xiàn)很好？

Vapnik覺得不能。2000年他贏了；隨后他們又賭，再過5年結(jié)果如何？這一次Vapnik錯(cuò)了：

在2005年任何頭腦清醒的人都不會(huì)再用和1995年時(shí)完全相同的模型了。

這場(chǎng)賭局，LeCun是見證人。

論文地址：
https://proceedings.neurips.cc/paper/1993/file/1aa48fc4880bb0c9b8a3bf979d3b917e-Paper.pdf

[1]https://x.com/gdb/status/1962594235263427045
[2]https://yorko.github.io/2022/vapnik-jackel-bet/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.