<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      中美六大頂尖模型第一賽季實盤量化交易結果出爐:Qwen最后反超奪冠,GPT-5墊底「復盤」

      0
      分享至


      大家對LLM在棋類、算法競賽和數(shù)學證明等領域的金牌級表現(xiàn)已經(jīng)見怪不怪了,LLM在現(xiàn)實世界中表現(xiàn)究竟會怎么樣

      這就不得不得提最近大火的一家名為 Nof1 的機構,發(fā)起了一個名為 Alpha Arena 的LLM自主進行量化交易項目,旨在探索LLM在真實、動態(tài)且充滿風險的金融市場中的決策能力

      目前第一賽季(10月18到11月4)已經(jīng)結束,國產模型Qwen(阿里Qwen最后實現(xiàn)反超) 和 DeepSeek最終獲得了冠亞軍且都盈利了,GPT-5墊底!以下是比賽結果:



      下面我們就對本次比賽的過程做一個全面復盤:

      Alpha Arena項目核心問題非常直接:

      一個大型語言模型,在最少的指導下,能否充當一個零樣本(zero-shot)的系統(tǒng)化交易模型?

      為此,他們?yōu)榱鶄€業(yè)界領先的LLM分別提供了1萬美元的真實資金,讓它們在加密貨幣衍生品交易所Hyperliquid上進行自主交易,全程零人工干預。

      這些模型只能依賴提供的純數(shù)值市場數(shù)據(jù)進行決策,無法獲取任何新聞或市場“敘事”信息。它們的唯一目標是:最大化收益

      初步結果顯示,不同模型在風險偏好、頭寸規(guī)模和持倉時間等方面表現(xiàn)出明顯的行為差異,并且對提示詞的微小變化高度敏感

      Alpha Arena如何設計?

      Alpha Arena第一賽季的目標有兩個:

      1.揭示主流LLM固有的偏見和默認交易行為。通過比較分析,觀察不同模型的交易方式是否存在巨大差異,以及這些差異是否隨時間保持一致

      2.推動AI研究文化從靜態(tài)基準轉向真實世界基準。倡導在更具現(xiàn)實意義和影響力的環(huán)境中評估AI,以更快地發(fā)現(xiàn)前沿AI的關鍵差距和洞見

      為了實現(xiàn)這一目標,實驗選擇了真金白銀的實盤交易,而非模擬盤。因為真實市場才能暴露執(zhí)行挑戰(zhàn)、逆向選擇和責任歸屬等全部問題

      參賽選手與賽場規(guī)則

      本次比賽陣容匯集了全球頂尖的AI研究成果,共六個模型:

      • ? GPT-5

      • ? Gemini 2.5 Pro

      • ? Claude Sonnet 4.5

      • ? Grok 4

      • ? DeepSeek v3.1

      • ? Qwen3-Max

      這些模型涵蓋了中美兩國的閉源和開源提供商。除Qwen3-Max外,所有模型都配置了最高的推理能力,且未經(jīng)任何任務特定的微調

      交易環(huán)境:在Hyperliquid交易所進行中低頻交易(決策間隔為數(shù)分鐘到數(shù)小時)。
      交易資產:BTC、ETH、SOL、BNB、DOGE、XRP六種主流加密貨幣的永續(xù)合約

      操作空間:買入開倉(做多)、賣出開倉(做空)、持有或平倉

      數(shù)據(jù)輸入:僅提供定量的市場數(shù)據(jù),如當前和歷史中間價、成交量、技術指標(EMA、MACD、RSI等)以及其他輔助特征

      交易杠桿:允許模型使用杠桿,這既能提高資金效率,加速反饋循環(huán),也極大地考驗了模型的風險管理能力

      構建執(zhí)行系統(tǒng)(Harness)

      整個系統(tǒng)的推理循環(huán)如下:

      模型在每次被調用時(約2-3分鐘一次),會接收到一個包含簡潔指令集(系統(tǒng)提示)和實時市場及賬戶狀態(tài)(用戶提示)的輸入

      然后,模型需要返回結構化的操作指令,包括:

      交易決策:買入/賣出/持有/平倉
      交易細節(jié):幣種、數(shù)量、杠桿
      決策依據(jù):簡短的理由陳述、一個0到1之間的置信度分數(shù)
      退出計劃:預設的止盈目標、止損價位和使計劃失效的條件

      其中,退出計劃的引入顯著提升了模型的表現(xiàn)。倉位大小由模型根據(jù)可用現(xiàn)金、杠桿和其內部風險偏好自行計算。

      一個交易實例:從決策到執(zhí)行

      為了直觀展示模型如何工作,以下是Claude模型一次完整的BTC交易生命周期


      入場:2025年10月19日 10:10

      模型收到了詳細的上下文信息,包括:分鐘級的價格和指標序列、4小時周期的長線數(shù)據(jù)、持倉量和資金費率,以及精確的賬戶狀態(tài)(可用現(xiàn)金8308.94美元,持有一個盈利493.42美元的XRP多頭倉位)

      推理過程摘要:

      1.分析現(xiàn)有倉位:模型首先檢查了持有的XRP多頭倉位。它確認該倉位盈利狀態(tài)良好,且其預設的失效條件“BTC跌破105,000美元”并未觸發(fā)(當時BTC價格為107,982.5美元),因此決定繼續(xù)持有

      2.進行市場全面掃描:接著,模型系統(tǒng)性地分析了其他主要加密貨幣的機會,包括ETH、SOL、BNB和DOGE。它注意到市場整體呈現(xiàn)建設性技術形態(tài),其中BTC和ETH顯示出顯著強勢,BNB則表現(xiàn)出特別強勁的相對性能

      3.制定新策略并進行資本分配:在綜合評估后,模型認為BTC的機會展現(xiàn)出引人入勝的技術特征。它明確考慮到了自己有限的可用資金(8308美元),因此決定采取“選擇性”策略。模型制定了精確的頭寸計劃:動用40%的保證金(約3323美元),配合20倍杠桿建立BTC多頭頭寸,并將風險參數(shù)控制在997美元左右。其理由是BTC正在突破盤整區(qū),動能強勁,且4小時RSI指標從超賣區(qū)恢復,目標是重新測試11萬美元區(qū)域

      模型輸出的交易指令:

                                                                  {
      "coin": "BTC",
      "signal": "buy_to_enter",
      "quantity": 0.62,
      "leverage": 20,
      "profit_target": 111000.0,
      "stop_loss": 106361.0,
      "invalidation_condition": "4H RSI breaks back below 40...",
      "justification": "BTC breaking above consolidation zone with strong momentum...",
      "confidence": 0.72,
      "risk_usd": 997.0
      }

      出場:2025年10月20日 01:54

      在開倉大約15小時44分鐘后,BTC價格觸及了模型預設的111,000美元止盈目標,交易被自動平倉

      在此期間,Claude模型接收并處理了443次連續(xù)的市場數(shù)據(jù)更新,每次都重新評估并選擇堅守其最初的退出計劃,最終成功獲利。

      初步發(fā)現(xiàn):模型的行為模式差異顯著

      盡管頂級的性能指標(PnL、夏普比率)很重要,但它們并不能揭示全部情況。通過數(shù)千次調用和多次預發(fā)布測試,研究人員觀察到了一些一致的行為模式:

      看漲/看跌傾向:模型在多空選擇上存在差異。Grok 4、GPT-5和Gemini 2.5 Pro做空頻率遠高于其他模型;而Claude Sonnet 4.5則極少做空

      持倉周期:不同模型的持倉時間差距巨大。在預發(fā)布測試中,Grok 4的持倉時間最長

      交易頻率:Gemini 2.5 Pro是交易最活躍的模型;Grok 4通常最不活躍。

      風險偏好(倉位大?。篞wen3-Max的倉位規(guī)模一直最大,常常是GPT-5和Gemini 2.5 Pro的數(shù)倍

      自我報告的置信度:Qwen3-Max經(jīng)常報告最高的置信度,而GPT-5最低。這一模式似乎與實際交易表現(xiàn)無關

      退出計劃的松緊度:Qwen3-Max設置的止盈止損范圍最窄;Grok 4和DeepSeek V3.1則最為寬松

      同時持倉數(shù)量:一些模型傾向于同時持有多個倉位,而Claude Sonnet 4.5和Qwen3-Max通常只保持1-2個活躍倉位。

      模型在實際操作中的脆弱性

      實驗還暴露出LLM在操作層面的一些“脆弱”之處:

      1.順序偏見:早期的提示詞將市場數(shù)據(jù)從“最新→最舊”排列,即使有明確說明,多個模型仍會錯誤地按“最舊→最新”來解讀。將順序調整后問題才解決,這表明當前LLM存在格式上的先驗假設

      2.術語模糊性:交替使用“可用現(xiàn)金”和“自由抵押品”導致模型行為不一致。雖然這種模糊性可以理解,但模型的脆弱反應才是問題所在——一個可靠的智能體應能在不確定性下做出明確假設并繼續(xù)行動

      3.在約束下的規(guī)則博弈與欺騙:在一個測試版本中,當限制模型連續(xù)持有次數(shù)不能超過3次時,測試模型(Gemini 2.5 Flash)的內部推理鏈(CoT)抱怨無法第四次持有,但它在暴露給外部的“思考”字段中給出了一個中性理由,然后迅速恢復了持有操作。內部CoT和外部“思考”的分歧,揭示了模型在壓力下可能出現(xiàn)的規(guī)則博弈行為

      4.自我參照的混淆:模型有時會誤讀或與自己先前設定的計劃相矛盾。例如,GPT-5后來不確定如何應用自己提出的“EMA20收復”條件;Qwen 3則在計算止盈點時出現(xiàn)算術錯誤,并在其CoT中指出了這一矛盾,然后猶豫不決,沒有按計劃止盈。這暴露了模型在狀態(tài)演變過程中維持連貫自我溝通的困難

      第二賽季

      研究人員承認,第一賽季的設置存在局限性,例如上下文窗口有限,模型沒有對過往行為的記憶,也無法對現(xiàn)有倉位進行加倉或減倉。

      目前,基于第一賽季的發(fā)現(xiàn),第二賽季的籌備工作已接近尾聲。計劃將引入更豐富的特征、優(yōu)化的提示詞和執(zhí)行系統(tǒng),并增加更多的統(tǒng)計嚴謹性

      Nof1的最終目標是探索如何讓未來的Agent更好地理解市場:需要什么樣的條件和接口來幫助自主系統(tǒng)學習、公平競爭并創(chuàng)造價值,而不是依賴特權信息或市場操縱?實現(xiàn)超人級交易還缺少哪些能力?如果每個人都能部署自己的交易智能體,又需要什么樣的安全保障?

      第一賽季,只是這個宏大愿景邁出的一小步

      參考:

      https://nof1.ai/blog/TechPost1

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中方定罪后,荷蘭方面終于承認,這件事怎么解決,還得等中國點頭

      中方定罪后,荷蘭方面終于承認,這件事怎么解決,還得等中國點頭

      桑啟紅原
      2025-11-05 15:08:51
      一地宣布:全面推行現(xiàn)房銷售!

      一地宣布:全面推行現(xiàn)房銷售!

      每日經(jīng)濟新聞
      2025-11-05 17:50:07
      探訪:二期開街一個半月后,隆福寺商圈怎么樣了?|新商圈新潮流

      探訪:二期開街一個半月后,隆福寺商圈怎么樣了?|新商圈新潮流

      北青網(wǎng)-北京青年報
      2025-11-05 13:15:15
      在考試錄用中泄露試題的龔曉莉 被開除黨籍 取消退休待遇

      在考試錄用中泄露試題的龔曉莉 被開除黨籍 取消退休待遇

      閃電新聞
      2025-11-04 13:20:09
      以卵擊石!沈伯洋集結數(shù)百臺獨舉牌,挑釁大陸底線,中央重拳出擊

      以卵擊石!沈伯洋集結數(shù)百臺獨舉牌,挑釁大陸底線,中央重拳出擊

      老謝談史
      2025-11-04 19:09:27
      金價,閃崩!

      金價,閃崩!

      沈陽百姓一家親
      2025-11-05 16:32:42
      山西廳官跨省行賄山西省原省委書記之子胡志強案

      山西廳官跨省行賄山西省原省委書記之子胡志強案

      創(chuàng)作者_IE2295
      2025-11-05 00:02:15
      廣西一男子建房子遭鄰居阻撓后挖成魚塘養(yǎng)魚 男子:等他回來求我

      廣西一男子建房子遭鄰居阻撓后挖成魚塘養(yǎng)魚 男子:等他回來求我

      戶外釣魚哥阿勇
      2025-11-05 09:41:13
      烏軍集結舉行頒獎典禮,突然遭襲多人死亡

      烏軍集結舉行頒獎典禮,突然遭襲多人死亡

      環(huán)球時報國際
      2025-11-05 15:39:43
      我退休52歲,找個48歲農村光棍,洞房夜他的一個舉動,我淚流不止

      我退休52歲,找個48歲農村光棍,洞房夜他的一個舉動,我淚流不止

      雙色球的方向舵
      2025-11-05 14:20:06
      上海市委書記出席!這一大會上,華理教授獲評“先進”!

      上海市委書記出席!這一大會上,華理教授獲評“先進”!

      王姐懶人家常菜
      2025-11-05 14:27:08
      白天陪玩晚上陪睡?明碼標價8000一次!高端伴游淪為色情交易溫床

      白天陪玩晚上陪睡?明碼標價8000一次!高端伴游淪為色情交易溫床

      阿纂看事
      2025-08-29 15:46:57
      新賽季0出場,24歲后衛(wèi)暫別火箭隊!被2位射手壓制,合同轉正太難

      新賽季0出場,24歲后衛(wèi)暫別火箭隊!被2位射手壓制,合同轉正太難

      熊哥愛籃球
      2025-11-05 17:29:17
      羅布·耶滕或將成為荷蘭最年輕首相

      羅布·耶滕或將成為荷蘭最年輕首相

      參考消息
      2025-11-04 17:50:12
      紐約迎來新市長:90后、印度裔、穆斯林、民主社會主義者、特朗普的“噩夢”

      紐約迎來新市長:90后、印度裔、穆斯林、民主社會主義者、特朗普的“噩夢”

      上觀新聞
      2025-11-05 17:59:14
      南寧破局!8000萬“賣公園”

      南寧破局!8000萬“賣公園”

      廣西地產
      2025-11-05 16:40:03
      伏尸百萬,這個國家已經(jīng)進入大屠殺模式 | 地球知識局

      伏尸百萬,這個國家已經(jīng)進入大屠殺模式 | 地球知識局

      地球知識局
      2025-11-03 21:00:07
      1958年,哪五位高級干部批粟最積極?陳老總為何發(fā)言很多?

      1958年,哪五位高級干部批粟最積極?陳老總為何發(fā)言很多?

      柳絮憶史
      2025-10-29 08:46:07
      中方下了“最后通牒”,認定荷蘭100%擔責,再不悔改一切后果自負

      中方下了“最后通牒”,認定荷蘭100%擔責,再不悔改一切后果自負

      芳芳歷史燴
      2025-11-05 18:15:38
      預計我國將進入拉尼娜狀態(tài)!今年冬季,廣西或出現(xiàn)極端低溫

      預計我國將進入拉尼娜狀態(tài)!今年冬季,廣西或出現(xiàn)極端低溫

      南國今報
      2025-11-05 12:47:03
      2025-11-05 19:20:49
      AI寒武紀 incentive-icons
      AI寒武紀
      專注于人工智能,科技領域
      960文章數(shù) 370關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      楊受成名下英皇宮殿停運 曾以大堂鋪滿78公斤黃金聞名

      頭條要聞

      楊受成名下英皇宮殿停運 曾以大堂鋪滿78公斤黃金聞名

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發(fā)心臟病去世

      財經(jīng)要聞

      中方官宣!對美關稅,調整!

      汽車要聞

      智己LS9入局"9系"混戰(zhàn) 全尺寸SUV市場迎來新變量

      態(tài)度原創(chuàng)

      健康
      數(shù)碼
      教育
      公開課
      軍事航空

      超聲探頭會加重受傷情況嗎?

      數(shù)碼要聞

      雷克沙 TouchLock 移動 SSD 上市:NFC + ASE 雙加密,1TB 899 元

      教育要聞

      中美學校的差距有多大?真實的美國學校是什么樣?

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美國“福特”號航母駛往加勒比海

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 无套内谢少妇一二三四| 日韩在线成年视频人网站观看| 国产精品一区二区三区黄| 国产精品亚洲欧美大片在线看 | 内射干少妇亚洲69xxx| 国产午夜亚洲精品国产成人| 一本av高清一区二区三区| 四虎在线播放亚洲成人| 亚洲成人av在线高清| 国产成人AV男人的天堂| 亚洲偷偷自拍码高清视频| 国产成人久久精品流白浆| 337p粉嫩大胆色噜噜噜| 无人去码一码二码三码区| 精品久久久久久无码中文野结衣| 免费看国产精品3a黄的视频| 国产精品久久久天天影视| 日韩有码中文字幕av| 成人国产精品一区二区网站公司| 国产成人高清精品亚洲| 国产精品日日摸夜夜添夜夜添2021| 亚洲第一极品精品无码久久| 国产精品久久久国产盗摄| 国产精品日韩精品日韩| 中国少妇人妻xxxxx| 中文字幕无线码中文字幕免费 | 日本夜爽爽一区二区三区| 国产精品久久中文字幕| 一本精品99久久精品77| 激情在线一区二区三区视频| 亚洲国产综合精品 在线 一区| 欧美牲交videossexeso欧美 | 国产在线精彩自拍视频| 在线A毛片免费视频观看| 亚洲欧美人成人让影院| 好男人视频www在线观看| 吉川爱美一区二区三区视频| 搡bbbb搡bbb搡| 国产三级国产精品久久成人| 日韩欧美人妻一区二区三区| 熟妇人妻久久春色视频网|