<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      大模型誰更強?LMArena成新賽場!爭議卻沒停過

      0
      分享至

      現在OpenAI的GPT、谷歌的Gemini、咱們中國的DeepSeek,這些大模型天天被拿來比,到底誰更強?以前還能靠個固定題庫打分,現在冒出個叫LMArena的平臺,成了新裁判。



      這事兒把大模型評測的老規矩都給改了。

      早幾年給大模型判高下,套路特別固定。

      就跟咱們上學考期末試似的,有MMLU、BIG-Bench這些“官方題庫”。

      MMLU涵蓋57個知識領域,從高中到博士級別都有,既能問神經網絡的技術題,也能考美國憲法的內容;BIG-Bench更有意思,要模型解釋冷笑話、續寫詩歌;HellaSwag則是測日常理解,比如“打開冰箱后最可能干啥”。



      這些題庫在AI圈火了二十年,優點確實明顯,標準統一,結果能重復。

      學術論文里只要說“我刷新了MMLU分數”,就代表模型更強。

      我上學時最煩死記硬背,沒想到模型也栽在這上面,好多題庫里的題,早就被放進模型的訓練材料里了。

      模型考高分,可能不是真懂了,只是把答案記住了。

      更關鍵的是,這玩意兒像閉卷考試,根本測不出模型的真實交互能力。



      你想啊,咱們用AI都是聊天、問問題,哪會按固定題庫來?華盛頓大學有個叫朱邦華的教授也說,就是因為老題庫有這些問題,才催生出新的評測方式。

      聊完以前的老辦法,就該說說LMArena是咋冒出來的。

      2023年的時候,有個叫LMSYS的組織,剛發布了開源模型Vicuna,想跟斯坦福的Alpaca比一比。

      可當時沒合適的評測方法,他們先試了讓GPT-3.5打分,后來又試了讓人類選“誰答得好”,結果發現后者更靠譜。

      就這么著,LMArena的前身ChatbotArena就誕生了。



      LMArena的玩法特別像打擂臺。

      用戶輸入一個問題,系統會隨機挑兩個模型來回答。

      你不知道屏幕后面是GPT還是Claude,只能憑答案選“左邊好”或“右邊好”,選完才揭曉模型身份。

      打分用的是國際象棋那套Elo機制,模型一開始有固定分數,贏了漲分,輸了扣分,慢慢就排出名次了。

      我覺得這招挺聰明,至少不像以前那樣靠死記硬背。



      而且它還有個“人機協同”的框架,會平衡模型的出場次數,防止某個模型因為露臉多就被高估。

      數據和算法還全開源,誰都能查,看著挺透明。

      后來前特斯拉AI總監Karpathy都在推特上推薦,說只信它的評測結果。

      谷歌更是把這兒當成新模型“試金石”,之前火的NanoBanana、傳聞中的Gemini3.0,都先在這亮過相。

      本來想,LMArena這匿名對戰挺公平吧,后來發現不是這么回事兒。



      用戶投票特別主觀,有人就喜歡說話自然、寫得長的模型,哪怕邏輯沒那么嚴謹。

      之前有研究機構分析,它的結果跟老題庫分數沒強關聯,還存在“話題偏差”,比如聊科技題和聊生活題,模型排名能差一大截。

      更離譜的是“刷榜”問題。

      去年Meta的Llama4Maverick在這兒排到第二,比GPT-4o還高。

      可等開源版一出來,開發者們發現根本沒那么強,懷疑Meta專門優化了模型應付投票,搞了個“專供版”。



      這事兒鬧大后,LMArena才改了規則,要求廠商必須披露模型版本。

      后面更讓人擔心的是商業化。

      今年5月,LMArena團隊成立了公司,還融了1億美金。

      資本一進來,平臺就得考慮賺錢,比如搞數據分析、定制評測報告。

      到時候它還能像以前那樣中立嗎?會不會偏向付費的大客戶?這真不好說。



      有人說LMArena不行,那是不是又得回到以前的Benchmark?其實也不是,現在的老題庫也在升級。

      比如MMLU出了Pro版,難度更高;還有專門測編程的SWE-Bench、測多智能體的AgentBench,不再是簡單考知識,而是模擬真實工作場景。

      另外還有個叫AlphaArena的新平臺,挺有意思。

      它讓模型去炒加密貨幣,給每個模型一樣的錢和指令,最后比誰賺得多。

      之前DeepSeek還贏了,畢竟它背后是量化基金公司。



      不過這玩法更像噱頭,大模型預測股市本來就不靠譜,結果也沒法重復。

      但它確實提供了新思路,讓模型在真實場景里“實戰”。

      我覺得未來肯定不是二選一,而是把老題庫的量化標準和LMArena的真實交互結合起來。

      就像咱們找工作,既要看學歷成績,也得看面試時的溝通能力。

      而且現在評模型越來越需要“硬通貨”,高難度數據。

      朱邦華教授說,現在得找數學博士、計算機博士來出題,一條題就要幾千美元,成本特別高。



      說到底,大模型評測早就不是簡單打個分了。

      AI上半場比的是“誰訓練得好”,下半場比的是“誰能說清啥叫智能”。

      LMArena也好,新題庫也罷,都是在摸黑找這個答案。

      你覺得LMArena到底靠不靠譜?歡迎留言聊聊。

      聲明:個人原創,僅供參考

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      最新一項研究揭秘:每根白發,可能都是抗癌防御的外在表現

      最新一項研究揭秘:每根白發,可能都是抗癌防御的外在表現

      紅星新聞
      2025-11-06 18:32:18
      國足主帥出爐:足協為何選擇邵佳一也不用高洪波,答案就是兩個字

      國足主帥出爐:足協為何選擇邵佳一也不用高洪波,答案就是兩個字

      姜大叔侃球
      2025-11-06 20:55:06
      天吶!鞏俐這身材太驚艷了,胸圍幾乎到肚臍,狀態卻依舊十分亮眼

      天吶!鞏俐這身材太驚艷了,胸圍幾乎到肚臍,狀態卻依舊十分亮眼

      TVB的四小花
      2025-10-22 02:25:03
      年輕人正在逃離上海!上海月薪8500房租3200,撤離上海的年輕人們,放棄萬元月薪選擇及時止損

      年輕人正在逃離上海!上海月薪8500房租3200,撤離上海的年輕人們,放棄萬元月薪選擇及時止損

      流年拾光
      2025-10-23 20:33:16
      當雷軍的抖音被投訴下架,到底是口碑反噬還是“豢養粉絲”

      當雷軍的抖音被投訴下架,到底是口碑反噬還是“豢養粉絲”

      張小俗
      2025-11-06 20:43:00
      美股三大指數集體收跌,納指跌1.9%,標普500指數跌1.12%,道指跌0.84%

      美股三大指數集體收跌,納指跌1.9%,標普500指數跌1.12%,道指跌0.84%

      每日經濟新聞
      2025-11-07 05:07:15
      當年身患漸凍癥,還堅持在抗疫一線的張定宇院長,如今境況如何?

      當年身患漸凍癥,還堅持在抗疫一線的張定宇院長,如今境況如何?

      以茶帶書
      2025-11-06 17:14:26
      人民日報專訪,揭開32歲周深的真實處境,那英確實一個字都沒說錯

      人民日報專訪,揭開32歲周深的真實處境,那英確實一個字都沒說錯

      八斗小先生
      2025-11-01 08:46:54
      廣州“電雞”整治來真的!不掛牌罰200,闖紅燈跑不了

      廣州“電雞”整治來真的!不掛牌罰200,闖紅燈跑不了

      音樂時光的娛樂
      2025-11-07 04:49:54
      繼向太吐槽后,73歲李立群也開噴王家衛,他的黑歷史越扒越有

      繼向太吐槽后,73歲李立群也開噴王家衛,他的黑歷史越扒越有

      小椰的奶奶
      2025-11-07 00:53:55
      北京小吃突然爆火!一大群人為啥排隊4小時也要吃它?

      北京小吃突然爆火!一大群人為啥排隊4小時也要吃它?

      BRTV新聞
      2025-11-06 21:32:19
      李湘帶王詩齡去見英國大使,她穿西裝瘦了好幾圈,王詩齡胖的沒腰

      李湘帶王詩齡去見英國大使,她穿西裝瘦了好幾圈,王詩齡胖的沒腰

      小熊侃史
      2025-11-06 11:19:33
      下一個恒瑞?業績大增3100%,全球唯一技術,捅破創新藥天花板

      下一個恒瑞?業績大增3100%,全球唯一技術,捅破創新藥天花板

      毒sir財經
      2025-11-06 23:44:45
      湖南,接住了“潑天富貴”!

      湖南,接住了“潑天富貴”!

      椰青美食分享
      2025-11-06 12:34:27
      就在今天!11月7日凌晨,國錦賽傳來趙心童、吳宜澤的新消息!

      就在今天!11月7日凌晨,國錦賽傳來趙心童、吳宜澤的新消息!

      皮皮觀天下
      2025-11-07 04:22:37
      曼城金球先生成瓷娃娃!一周雙賽瓜帥根本不敢用他

      曼城金球先生成瓷娃娃!一周雙賽瓜帥根本不敢用他

      球事百科吖
      2025-11-07 02:44:54
      這個畫面是東方小孫一生的痛,也是他縱橫商界中難以磨滅的污點!

      這個畫面是東方小孫一生的痛,也是他縱橫商界中難以磨滅的污點!

      樂悠悠娛樂
      2025-10-22 10:17:32
      大勝!杰倫布朗35+5,榜眼空砍31+8,白魔2分,離開火箭或許錯了

      大勝!杰倫布朗35+5,榜眼空砍31+8,白魔2分,離開火箭或許錯了

      巴叔GO聊體育
      2025-11-06 14:06:24
      風云突變!鄭麗文“重拳”落下,盧秀燕緊急發聲,吳敦義、王鴻薇又有何動作?

      風云突變!鄭麗文“重拳”落下,盧秀燕緊急發聲,吳敦義、王鴻薇又有何動作?

      娛樂督察中
      2025-11-07 05:55:24
      跳水界再現黑馬!王偉瑩奪單人冠軍,采訪意外披露全紅嬋真實情況

      跳水界再現黑馬!王偉瑩奪單人冠軍,采訪意外披露全紅嬋真實情況

      手工制作阿殲
      2025-11-07 00:17:55
      2025-11-07 07:15:00
      許穋很機智
      許穋很機智
      每天創作搞笑幽默視頻,謝謝關注
      566文章數 21關注度
      往期回顧 全部

      科技要聞

      小鵬機器人里藏真人?何小鵬發一鏡到底視頻

      頭條要聞

      英國國王簽署詔書 正式剝奪安德魯王子頭銜

      頭條要聞

      英國國王簽署詔書 正式剝奪安德魯王子頭銜

      體育要聞

      送走兩位全明星,公牛成了東部第一

      娛樂要聞

      “黑料纏身”的白百何 誰給她的勇氣?

      財經要聞

      南銀法巴加速發展背后:資金饑渴癥待解

      汽車要聞

      是我眼花了么?怎么大猩猩都來參加新車發布了?

      態度原創

      本地
      藝術
      親子
      手機
      軍事航空

      本地新聞

      這屆干飯人,已經把博物館吃成了食堂

      藝術要聞

      Omar Ortiz 2025作品,墨西哥當代極簡超寫實畫家

      親子要聞

      讓寶寶少咳嗽、讓孩子晚近視、為罕見病早行動 進博展商交出兒童健康民生答卷

      手機要聞

      榮耀500系列再次被確認:驍龍8s Gen4+8000mAh,2億主攝也在內!

      軍事要聞

      美國發射洲際彈道導彈 俄方回應

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 丝袜人妻一区二区三区网站| 好爽毛片一区二区三区四| 洛川县| 精品国产AV无码一区二区三区| 最新亚洲av日韩av二区| 国产99视频精品免费观看9| 中文激情一区二区三区四区| 免费看视频的网站| 国产精品人成视频免费播放| 欧美色欧美亚洲另类二区| 国产老熟女视频一区二区| 青河县| 蜜臀91精品国产高清在线| 欧美另类精品xxxx人妖| 开心五月激情综合久久爱| 色噜噜狠狠成人综合| 国产一级av在线播放| 青草青草久热国产精品| 久久精品国产色蜜蜜麻豆| 亚洲精品免费一二三区| 农村欧美丰满熟妇xxxx| 天天做天天爱夜夜爽毛片| 疯狂做受XXXX高潮国产| 一个人免费观看WWW在线视频| 国产成人综合色就色综合| 少妇午夜福利一区二区三区| 国产妇女馒头高清泬20p多毛| 亚洲熟妇无码av另类vr影视| 成人精品视频一区二区三区| 午夜在线观看成人av| 无码av永久免费专区麻豆| 99在线国内在线视频22| 免费人成在线观看网站| 日本欧美一区二区三区在线播放 | 国内精品视频区在线2021| 国产精品户外野外| 高清在线一区二区三区视频 | 欧美三级在线播放| 日韩有码中文字幕第一页| 男女高潮喷水在线观看| 国产免费久久精品44|