現在OpenAI的GPT、谷歌的Gemini、咱們中國的DeepSeek,這些大模型天天被拿來比,到底誰更強?以前還能靠個固定題庫打分,現在冒出個叫LMArena的平臺,成了新裁判。
![]()
這事兒把大模型評測的老規矩都給改了。
早幾年給大模型判高下,套路特別固定。
就跟咱們上學考期末試似的,有MMLU、BIG-Bench這些“官方題庫”。
MMLU涵蓋57個知識領域,從高中到博士級別都有,既能問神經網絡的技術題,也能考美國憲法的內容;BIG-Bench更有意思,要模型解釋冷笑話、續寫詩歌;HellaSwag則是測日常理解,比如“打開冰箱后最可能干啥”。
![]()
這些題庫在AI圈火了二十年,優點確實明顯,標準統一,結果能重復。
學術論文里只要說“我刷新了MMLU分數”,就代表模型更強。
我上學時最煩死記硬背,沒想到模型也栽在這上面,好多題庫里的題,早就被放進模型的訓練材料里了。
模型考高分,可能不是真懂了,只是把答案記住了。
更關鍵的是,這玩意兒像閉卷考試,根本測不出模型的真實交互能力。
![]()
你想啊,咱們用AI都是聊天、問問題,哪會按固定題庫來?華盛頓大學有個叫朱邦華的教授也說,就是因為老題庫有這些問題,才催生出新的評測方式。
聊完以前的老辦法,就該說說LMArena是咋冒出來的。
2023年的時候,有個叫LMSYS的組織,剛發布了開源模型Vicuna,想跟斯坦福的Alpaca比一比。
可當時沒合適的評測方法,他們先試了讓GPT-3.5打分,后來又試了讓人類選“誰答得好”,結果發現后者更靠譜。
就這么著,LMArena的前身ChatbotArena就誕生了。
![]()
LMArena的玩法特別像打擂臺。
用戶輸入一個問題,系統會隨機挑兩個模型來回答。
你不知道屏幕后面是GPT還是Claude,只能憑答案選“左邊好”或“右邊好”,選完才揭曉模型身份。
打分用的是國際象棋那套Elo機制,模型一開始有固定分數,贏了漲分,輸了扣分,慢慢就排出名次了。
我覺得這招挺聰明,至少不像以前那樣靠死記硬背。
![]()
而且它還有個“人機協同”的框架,會平衡模型的出場次數,防止某個模型因為露臉多就被高估。
數據和算法還全開源,誰都能查,看著挺透明。
后來前特斯拉AI總監Karpathy都在推特上推薦,說只信它的評測結果。
谷歌更是把這兒當成新模型“試金石”,之前火的NanoBanana、傳聞中的Gemini3.0,都先在這亮過相。
本來想,LMArena這匿名對戰挺公平吧,后來發現不是這么回事兒。
![]()
用戶投票特別主觀,有人就喜歡說話自然、寫得長的模型,哪怕邏輯沒那么嚴謹。
之前有研究機構分析,它的結果跟老題庫分數沒強關聯,還存在“話題偏差”,比如聊科技題和聊生活題,模型排名能差一大截。
更離譜的是“刷榜”問題。
去年Meta的Llama4Maverick在這兒排到第二,比GPT-4o還高。
可等開源版一出來,開發者們發現根本沒那么強,懷疑Meta專門優化了模型應付投票,搞了個“專供版”。
![]()
這事兒鬧大后,LMArena才改了規則,要求廠商必須披露模型版本。
后面更讓人擔心的是商業化。
今年5月,LMArena團隊成立了公司,還融了1億美金。
資本一進來,平臺就得考慮賺錢,比如搞數據分析、定制評測報告。
到時候它還能像以前那樣中立嗎?會不會偏向付費的大客戶?這真不好說。
![]()
有人說LMArena不行,那是不是又得回到以前的Benchmark?其實也不是,現在的老題庫也在升級。
比如MMLU出了Pro版,難度更高;還有專門測編程的SWE-Bench、測多智能體的AgentBench,不再是簡單考知識,而是模擬真實工作場景。
另外還有個叫AlphaArena的新平臺,挺有意思。
它讓模型去炒加密貨幣,給每個模型一樣的錢和指令,最后比誰賺得多。
之前DeepSeek還贏了,畢竟它背后是量化基金公司。
![]()
不過這玩法更像噱頭,大模型預測股市本來就不靠譜,結果也沒法重復。
但它確實提供了新思路,讓模型在真實場景里“實戰”。
我覺得未來肯定不是二選一,而是把老題庫的量化標準和LMArena的真實交互結合起來。
就像咱們找工作,既要看學歷成績,也得看面試時的溝通能力。
而且現在評模型越來越需要“硬通貨”,高難度數據。
朱邦華教授說,現在得找數學博士、計算機博士來出題,一條題就要幾千美元,成本特別高。
![]()
說到底,大模型評測早就不是簡單打個分了。
AI上半場比的是“誰訓練得好”,下半場比的是“誰能說清啥叫智能”。
LMArena也好,新題庫也罷,都是在摸黑找這個答案。
你覺得LMArena到底靠不靠譜?歡迎留言聊聊。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.