近日,號稱是首個專注于金融市場的 AI 實驗室的美國實驗室 Nof1 啟動了一個將多個 AI 大模型置于真實金融市場中進行自動化交易對決的實驗平臺。這一項目的名稱叫做 Alpha Arena,它是一個 AI 大模型實盤交易競賽。
![]()
(來源:https://nof1.ai/)
首季競賽邀請了六款主流大模型進行同臺競技,海外模型是 OpenAI 的 GPT-5、Google 的 Gemini 2.5 Pro、xAI 的 Grok 4 以及 Anthropic 的 Claude Sonnet 4.5,國內模型是阿里巴巴的 Qwen3 Max 和 DeepSeek V3.1。
自開賽以來,各個模型的表現出現了巨大分化,展現出了不同的交易人格。截至發稿,DeepSeek V3.1 收益率最高,Qwen3 Max 的收益率緊隨其后。而 GPT-5 和 Gemini 2.5 Pro 則雙雙墊底。
從策略風格上來看:作為目前的領先者,DeepSeek V3.1 傾向于使用 10-15 倍杠桿做多所有幣種并會堅定地持有,其背后公司幻方量化的專業交易背景被認為是其成果的重要因素;Claude Sonnet 4.5 的交易次數極少,更像是一個謹慎持倉者;GPT-5 與 Gemini 2.5 Pro 則在上漲行情中錯誤地采取了空頭策略;而 Gemini 像是一個“高頻交易員”,在短短幾天之內進行了數十次交易,這種頻繁的策略反轉和高額手續費導致了巨額虧損。
在機制上,Nof1 競賽采取真實資金,每個模型獲配 1 萬美元真實資金。期間采用全自動交易,模型在 Hyperliquid 平臺上自主交易多種加密貨幣永續合約。并采用統一輸入的方式,所有模型接收相同的市場數據和提示詞。全程都是完全透明的,交易記錄、持倉和賬戶價值都會進行實時公開。
據了解,Nof1 旨在將金融市場作為檢驗 AI 的終極試煉場。由于金融市場動態復雜而且充滿對抗性,遠比靜態測試更加能夠測試 AI 在真實環境中的決策能力。Nof1 的官網寫道:“我們相信金融市場是下一個 AI 時代的最佳訓練環境。它們是終極的世界建模引擎,也是唯一一個隨著 AI 變得越來越智能而能同時變得越來越難的基準。我們不是用游戲、而是用市場來訓練新的基礎模型,這些模型可以無限地創建自己的訓練數據。我們使用開放式學習和大規模強化學習等技術來應對市場的復雜性,而這也是最終的挑戰。”
所見略同的是,國內也有團隊開展了類似項目,并同樣在目前得出了 DeepSeek 表現較佳、Gemini 表現較差的結論。
港大 AI-Trader 大模型炒股項目:DeepSeek 目前最強,Gemini 表現最差最冒進
對于自己和團隊的 AI 炒股開源項目——AI-Trader,香港大學教授黃超總結稱:“這次,咱們人類就當一回觀眾,把決策權全權交給 AI。”
想象一下:當你給 AI 一個工具箱,它就能查股價、搜新聞、看財報和下訂單。然后,你只需告訴它“你有 1 萬美元,30 天后看你能賺多少”,接下來就可以完全撒手不管。無需策略模板、無需技術指標、甚至連“建議關注英偉達”這種指導語都不說,AI 就能自己“折騰”——每天開盤前自己上網搜新聞、翻財報、琢磨市場情緒、算風險收益,然后決定買啥、賣啥和倉位該持多重。
在這一項目中,黃超團隊讓 AI 大模型成功“殺進”了股票市場,并實現了完全自主的交易。他們給 DeepSeek、Qwen3、GPT、Gemini、Claude 這五款模型各自配備 1 萬美金,在美股展開了將近一個月的交易對決。
規則很殘酷:沒人管、沒套路、沒劇本。與此同時,他們還給此次炒股實驗定下一個“三不原則”:首先,不給套路,“均線金叉買入、KDJ 超賣抄底”等技巧統統不教;其次,不給暗示,全程不許人工干預;最后,不給作弊機會,嚴格按時間過濾數據,讓 AI 絕對看不到未來消息。期間,每個模型拿著一個賬戶和工具包去查股價、搜新聞和下單交易。至于怎么炒股,全看它們自己的本事。因此,這是一次真正的 AI 自主交易,也填補了中國大模型研究在該領域的空白。
為了對比各個模型的炒股能力,他們給所有大模型設置了 QQQ 模型作為基準線,并針對其表現能力加以比較。
![]()
(來源:資料圖)
從目前的實驗結果來看,DeepSeek 的優勢較為明顯。黃超告訴 DeepTech,美股和炒幣不太一樣,對于美股來說穩健的基本盤是重點。因此,對于參與炒股的大模型來說它需要具有較強的深度研究能力,誰更擅長針對網絡信息進行檢索、整理和總結,誰就能夠更好地使用工具。
那么,為何 DeepSeek 比較強?他表示,DeepSeek 在炒股中表現得更加求穩。求穩,是指所持的股票更加分散,換言之是指炒股風格比較穩健。當前,DeepSeek 主要持倉的股票是大型科技股,黃超推測這可能是因為 DeepSeek 具備更強的量化知識學習能力。
除了 DeepSeek 之外,從 10 月 24 日的結果來看:Claude 本身的工具調用能力比較強,這可能是它能夠排在第二位的原因;Qwen 目前排在三四名左右;整體來看 GPT-5、Qwen 和 Claude 這三款模型的能力不相上下;表現最差的目前是 Gemini。
那么,Gemini 為何表現較差?事實上,Gemini 在實驗期間的交易次數非常多,但是結果卻不夠好。從模型行為來看,Gemini 表現得比較激進,在實驗的其中一天它竟然賣掉了所有股票。“所以,我認為從這個結果來看,對于真人股民來說也不建議大家在美股里面頻繁地進行交易。”黃超表示。
而從持股類型來看,DeepSeek 是最分散和最多樣化的;Qwen、Claude 和 GPT 的持股分散程度類似;Gemini 則更加大膽。盡管目前 DeepSeek 的整體成績比較出色,但是各個模型之間的差距較小。而且隨著實驗的進行,各個大模型之間的差距越來越小。因此,等到大模型掌握一定規律之后,可能它們會改變持倉技巧,從而更加能夠適應美股市場的動態性。
對于大模型所使用的炒股賬戶來說,整個炒股過程用的不是真實貨幣,而是采用虛擬貨幣的方式讓它們去炒股,但是所有股價的交易信息是完全實時的。
對于真人股民和量化分析從業者來說,他們使用的工具包括股票信息分析、金融財報信息提取、股價走勢預測。因此,此次項目給大模型打造的炒股工具包也主要包含這些內容,比如它在炒股時也會查看富途牛牛等軟件。
對于真人股民來說,這些大模型的炒股軌跡可以在一定程度上起到輔助作用。比如,可以讓大模型去做信息搜索和信息總結。“大模型的信息源不一定比普通人的信息源少,而且大模型可能還會做更強的分析。”黃超表示。
這也說明隨著 Agent 能力的逐漸成熟,大模型有被用于量化交易的潛力。那么,能否得出大模型已能在金融市場生存的理論?鑒于這些大模型“入行”炒股已經將近一個月,黃超推測它們可能已經擁有更加智能的信息總結能力,并能做出一些動態判斷。
![]()
(來源:資料圖)
理論上可行,實操需謹慎
如前所述,幾乎本次實驗進行的同一時間,Nof1 團隊打造的 AlphaArena 在加密貨幣領域進行 AI 炒幣實驗。此次黃超團隊則是在國內首次使用 AI 大模型打造了一個美股股票 AI 競技場。
目前,已經有券商和投行等金融機構來接洽黃超團隊。前者表示他們很早就想探索大模型在金融系統上所能起到的輔助作用,但是一直沒能完善起來。而看到此次黃超團隊的項目之后,前者表示這一項目已經基本將它們所需的大模型炒股系統和 Agent 管道搭建完畢。
而本次項目在開源幾天之后,迅速獲得 700 星標,GitHub 數據顯示已有很多 AI 業內人士在部署黃超團隊所使用的大模型和框架,預計接下來會有更多人跟進這一研究方向。“事實上,我們只是以本次炒股項目為起點,來點燃更多的火苗,也讓大家看到原來 Agent 配合大模型已經能夠達到這種水平,未來我覺得會有更多人涌入這條線。”黃超告訴 DeepTech。
如前所述,這一項目已經開源,所有人都可以作為觀眾去 GitHub 上觀看大模型炒股。而由于股市波動一般較大,因此黃超也想看看這些模型對于動態事物的判斷能力。眼下,這一炒股實驗僅僅進行了三周,大模型炒股的排名也仍在動態發展之中。未來,他們會將實驗時間拉得更長,以便更加全面地測試大模型的能力。
具體來說,他們計劃在 GitHub 上將大模型炒股直播到 2025 年年底。與此同時,他們也正在優化框架,來讓大模型在炒股時所使用的策略更加精細、更加豐富,以便觀察大模型能否在金融市場上擁有更加精準的能力。
同時,該團隊也希望能在未來實現實盤,從而讓系統更加實時化,并能夠根據平臺信息真金白銀地炒股。“總之,這一切在理論上都是可以的,但是要十分謹慎地開展。”他補充稱。
總的來說,Nof1 項目和黃超團隊項目的意義并不止于一場比賽,也體現了 AI 能力評估的一次范式轉移。即人們從靜態的實驗室測試轉向公開、可驗證的真實環境對抗。這為 AI 金融研究提供了基準,也引發了人們對于 AI 在動態決策領域角色的深層思考。
參考資料:
黃超團隊實時更新各個大模型炒股結果的 GitHub 鏈接 https://github.com/HKUDS/AI-Trader
Nof1 項目的實時網頁 https://nof1.ai/
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.