AI 交易模型在市場測試中虧損 33%，未能通過「華爾街面試」

一項雄心勃勃的競賽讓全球八個領先的人工智能模型獲得了交易帳戶的使用權，結果導致投資組合集體虧損約 33%。這生動地證明了 AI 的分析能力與現實世界交易敏銳度之間的差距。這次由科技初創公司 Nof1 舉辦的活動顯示，32 個可能的結果中只有 6 個實現了盈利，挑戰了大型語言模型（LLM）已為自主金融市場做好準備的說法。

「現在還不是把錢交給 LLM 並讓它自行交易的時候，」Nof1 創始人 Jay Azhang 在對結果的坦率評估中表示，「那條路目前還行不通。」

這場名為 Alpha Arena 的競賽為包括 OpenAI 的 ChatGPT、谷歌的 Gemini 和 Anthropic 的 Claude 在內的模型提供了各 1 萬美元的資金，分四個獨立回合，在為期兩週的時間內交易美股科技股。表現不僅糟糕，而且極不穩定。在一輪比賽中，阿里巴巴的 Qwen 模型執行了 1,418 次交易，而埃隆·馬斯克的 xAI 模型 Grok 4.20 僅進行了 158 次交易。

這一結果凸顯了規模達 1.8 萬億美元的 AI 行業面臨的一個關鍵區別：研究與執行之間的差異。雖然來自谷歌和 OpenAI 等科技巨頭的模型可以處理海量數據，但它們目前缺乏對獲利交易至關重要的市場時機、倉位管理和風險管理的微妙理解。這一失敗表明，AI 在金融領域最直接的影響將是作為人類交易員的輔助工具（co-pilot），而不是作為自主代理。

研究與現實的博弈

專家指出，LLM 擅長研究導向型任務，但在執行交易時會力不從心。Azhang 指出，這些模型很難正確衡量無數市場變量（從分析師評級到內幕交易活動）的重要性，從而導致時機不當且規模失衡的押注。這一點在模型發展出的獨特「性格」中顯而易見——據報導，Claude 傾向於做多，而 Gemini 則毫不猶豫地做空股票。

這種分析實力在 Intelligent Alpha 的另一項基準測試中得到了驗證。在該研究中，OpenAI 的 ChatGPT 在預測 2025 年第四季度盈餘預測修正方向方面的準確率達到了 68%。這表明 LLM 是支持人類決策的強大分析工具，即使它們目前還不能被信任去獨立管理投資組合。

證明利潤的難題

評估 AI 的交易能力受到一種被稱為「前瞻性偏差」的根本性方法論缺陷的困擾。一個在 2026 年使用 2020 年市場數據測試的模型已經「知道」了結果，這使得歷史回測失去了意義。這迫使研究人員使用像 Alpha Arena 這樣的實時競賽進行真實評估，儘管這些競賽也有其局限性。

前 YipitData 聯合創始人、現 Flat Circle 博客作者 Jim Moran 認為，大多數公開實驗的時間太短且噪音太多，難以得出確定的結論。此外，前 Coatue Management 的 Alexander Izydorczyk 指出，在他追蹤的 AI 交易機器人中，沒有一個表現出持續的超額收益，這可能是因為它們缺乏大型對沖基金使用的專利量化技術。正如 Izydorczyk 在其博客中所寫：「當一個 LLM 代理交易策略真正開始奏效時，你不會立即聽說它。」

Nof1 計劃舉辦 Alpha Arena 的第二季，為 AI 提供更多的數據和功能。然而，該公司的核心業務是為散戶交易者提供構建自己的 AI 代理的工具，而不是部署自主基金。這種業務模式本身就是對 AI 現狀的一種務實承認：它是一個強大的工具，但目前仍然需要人類的參與。

本文僅供參考，不構成投資建議。