![]()
機器之心報道
機器之心編輯部
6 個頂級 AI 炒幣 2 周,結果出人意料……
經過兩周的廝殺,首屆 nof1 AI 模型交易大賽終于落下帷幕。
這是第一個專為衡量 AI 投資能力而設計的基準測試,被譽為「幣圈版的圖靈測試」,由美國人工智能研究實驗室 Nof1.ai 于 2025 年 10 月 17 日正式啟動,一直持續至 11 月 3 日結束。
參賽選手是 6 款大模型,分別是 DeepSeek Chat V3.1(DeepSeek)、Grok 4(xAI)、Gemini 2.5 Pro(Google)、GPT-5(OpenAI)、Qwen3 Max(阿里巴巴)、Claude Sonnet 4.5(Anthropic)。
這些模型代表了中美兩國閉源和開源供應商的最新技術水平。除 Qwen3-Max 外,所有模型均啟用最高可配置的推理設置,且報告的是開箱即用的性能,未進行任何針對特定任務的微調。
每款大模型獲得 1 萬美元初始資金,使用相同的市場數據和技術指標,自主在 Hyperliquid 上進行加密永續合約交易,全程無人類干預,最終評估哪些模型能夠在投資上獲得最優回報。
![]()
他們將操作空間限制為:買入(做多)、賣出(做空)、持有或平倉。可交易的加密貨幣范圍限于 Hyperliquid 上的六種流行加密貨幣:BTC、ETH、SOL、BNB、DOGE 和 XRP。之所以選擇加密資產的三個實際原因是:市場全天候開放,能夠持續觀察決策,而不是只在工作時間內;數據豐富且易于獲取,這支持分析和透明的審計;Hyperliquid 快速、可靠,并且極易集成,Hyperliquid 和加密貨幣是全球性的,它們不太依賴于特定國家或公司。這些模型進行的是中低頻交易(MLFT),其決策間隔為幾分鐘到幾個小時,而非微秒級別。
按照比賽規則,所有交易記錄、持倉、決策日志和賬戶余額變化實時公開,觀眾可通過 Nof1.ai 平臺查看動態圖表,透明度極高。
比賽結果已出爐,兩個國產大模型打了漂亮的一仗。
Qwen3 Max 排名第一,收益率為 22.3%,勝率為 30.2%,總盈虧為 $2232,總交易次數為 43 次。DeepSeek Chat V3.1 排名第二,收益率為 4.89%,勝率為 24.4%,總盈虧為 $489.08,總交易次數為 41 次。
其余模型均大幅虧損,Claude Sonnet 4.5 虧損 30.81%、Grok 4 虧損 45.3%、Gemini 2.5 Pro 虧損 56.71%、GPT 5 虧損 62.66%。
![]()
賽事自啟動以來引發廣泛關注,連幣安創始人趙長鵬也公開評論。
他認為,傳統上交易策略通常依賴于獨特性,最好是別人沒有的策略,這樣才能獲得優勢。如果所有人都用相同的 AI 模型進行交易,可能會導致大家在同一時刻買入或賣出,影響市場動態。
不過,如果足夠多的人使用同一 AI 模型,它的購買力可能會通過市場需求本身推動價格上漲。
他還預測,由于 AI 交易的表現引起了關注,未來可能會有更多人開始研究 AI 在交易中的應用,預計交易量會大幅增加。
![]()
六款模型交易「個性」各異
從披露的「成績單」可以看出,這六款模型有著不同的交易「個性」。
Qwen3 Max 整體偏「進攻型」,其回報率高達 22.32%,總盈虧為 2232 美元。盡管費用較高(1654 美元),顯示其交易頻率適中且倉位較大,Qwen3 Max 憑借 30.2% 的勝率和最大盈利 8176 美元,展現了「高風險高回報」的進取型交易策略。其 Sharpe 值為 0.273,證明其風險調整后收益穩定。
緊隨其后,DeepSeek Chat V3.1 憑借穩健的表現獲得了第二名,回報率為 4.89%,總盈虧為 489 美元。相對較低的交易費用(690 美元)表明其交易次數不多但效率較高。雖然其勝率為 24.4%,但最大盈利高達 7378 美元,表現出其理性、穩健的策略型特點。Sharpe 值為 0.359,為所有模型中最高,顯示其出色的風險控制能力。
Claude Sonnet 4.5 表現較為平淡,回報率為 - 30.81%,總虧損為 3081 美元。其較低的交易頻率(36 次)和僅 25% 的勝率反映出它偏向謹慎的策略,但最大盈利 2112 美元與最大虧損 1579 美元顯示出其單筆交易的差異性較小。Sharpe 值為 - 0.057,意味著其收益波動較大,風險控制不足。
Grok 4 則以 - 45.3% 的回報率和 4530 美元的總虧損,位居第四。它的交易頻率為 47 次,Sharpe 值為 - 0.118,最大盈利 1356 美元和最大虧損 657 美元表明其操作較為保守,難以抓住市場的大趨勢。
Gemini 2.5 Pro 在大賽中表現不佳,回報率為 - 56.71%,總虧損為 5671 美元。其 238 次交易次數為所有模型中最高,極度活躍,但勝率僅為 25.6%,Sharpe 值為 - 0.566,反映出其過度交易,回報低效。這個模型更像是一個典型的「高頻操盤手」,缺乏穩定的策略。
GPT-5 以 - 62.66% 的回報率和 6266 美元的總虧損,成為表現最差的模型。它的 116 次交易次數雖然較多,但收益極低。勝率為 26.7%,Sharpe 值為 - 0.525,表明其交易存在較大波動且虧損嚴重。最大盈利僅為 270 美元,最大虧損 621 美元,說明其缺乏有效的市場判斷和風險管理。
總體來說,來自中國的 Qwen3 Max 與 DeepSeek 在風險控制與趨勢識別上更為領先,而 GPT-5、Claude、Grok、Gemini 美國系模型則普遍虧損嚴重。
https://nof1.ai/leaderboard
https://nof1.ai/blog/TechPost1
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.