AI 交易模型在市场测试中亏损 33%，未能通过“华尔街面试”

一项雄心勃勃的竞赛让全球八个领先的人工智能模型获得了交易账户的使用权，结果导致投资组合集体亏损约 33%。这生动地证明了 AI 的分析能力与现实世界交易敏锐度之间的差距。这次由科技初创公司 Nof1 举办的活动显示，32 个可能的结果中只有 6 个实现了盈利，挑战了大型语言模型（LLM）已为自主金融市场做好准备的说法。

“现在还不是把钱交给 LLM 并让它自行交易的时候，”Nof1 创始人 Jay Azhang 在对结果的坦率评估中表示，“那条路目前还行不通。”

这场名为 Alpha Arena 的竞赛为包括 OpenAI 的 ChatGPT、谷歌的 Gemini 和 Anthropic 的 Claude 在内的模型提供了各 1 万美元的资金，分四个独立回合，在为期两周的时间内交易美股科技股。表现不仅糟糕，而且极不稳定。在一轮比赛中，阿里巴巴的 Qwen 模型执行了 1,418 次交易，而埃隆·马斯克的 xAI 模型 Grok 4.20 仅进行了 158 次交易。

这一结果凸显了规模达 1.8 万亿美元的 AI 行业面临的一个关键区别：研究与执行之间的差异。虽然来自谷歌和 OpenAI 等科技巨头的模型可以处理海量数据，但它们目前缺乏对获利交易至关重要的市场时机、仓位管理和风险管理的微妙理解。这一失败表明，AI 在金融领域最直接的影响将是作为人类交易员的辅助工具（co-pilot），而不是作为自主代理。

研究与现实的博弈

专家指出，LLM 擅长研究导向型任务，但在执行交易时会力不从心。Azhang 指出，这些模型很难正确衡量无数市场变量（从分析师评级到内幕交易活动）的重要性，从而导致时机不当且规模失衡的押注。这一点在模型发展出的独特“性格”中显而易见——据报道，Claude 倾向于做多，而 Gemini 则毫不犹豫地做空股票。

这种分析实力在 Intelligent Alpha 的另一项基准测试中得到了验证。在该研究中，OpenAI 的 ChatGPT 在预测 2025 年第四季度盈余预测修正方向方面的准确率达到了 68%。这表明 LLM 是支持人类决策的强大分析工具，即使它们目前还不能被信任去独立管理投资组合。

证明利润的难题

评估 AI 的交易能力受到一种被称为“前瞻性偏差”的根本性方法论缺陷的困扰。一个在 2026 年使用 2020 年市场数据测试的模型已经“知道”了结果，这使得历史回测失去了意义。这迫使研究人员使用像 Alpha Arena 这样的实时竞赛进行真实评估，尽管这些竞赛也有其局限性。

前 YipitData 联合创始人、现 Flat Circle 博客作者 Jim Moran 认为，大多数公开实验的时间太短且噪音太多，难以得出确定的结论。此外，前 Coatue Management 的 Alexander Izydorczyk 指出，在他追踪的 AI 交易机器人中，没有一个表现出持续的超额收益，这可能是因为它们缺乏大型对冲基金使用的专利量化技术。正如 Izydorczyk 在其博客中所写：“当一个 LLM 代理交易策略真正开始奏效时，你不会立即听说它。”

Nof1 计划举办 Alpha Arena 的第二季，为 AI 提供更多的数据和功能。然而，该公司的核心业务是为散户交易者提供构建自己的 AI 代理的工具，而不是部署自主基金。这种业务模式本身就是对 AI 现状的一种务实承认：它是一个强大的工具，但目前仍然需要人类的参与。

本文仅供参考，不构成投资建议。