Các nhà giao dịch AI lỗ 33% trong bài kiểm tra thị trường, trượt 'buổi phỏng vấn' tại Wall Street

Một cuộc thi đầy tham vọng cấp quyền truy cập tài khoản giao dịch cho tám mô hình trí tuệ nhân tạo hàng đầu thế giới đã dẫn đến khoản lỗ tập thể khoảng 33% danh mục đầu tư, một minh chứng rõ rệt cho khoảng cách giữa khả năng phân tích của AI và sự nhạy bén trong giao dịch thực tế. Sự kiện do startup công nghệ Nof1 tổ chức, cho thấy chỉ có 6 trong số 32 kết quả có thể xảy ra là có lãi, thách thức quan điểm cho rằng các mô hình ngôn ngữ lớn (LLM) đã sẵn sàng cho các thị trường tài chính tự trị.

"Bây giờ không phải là lúc để đưa tiền cho một LLM và để nó tự giao dịch," Jay Azhang, người sáng lập Nof1, đưa ra đánh giá thẳng thắn về kết quả. "Con đường đó vẫn chưa khả thi."

Cuộc thi Alpha Arena đã cung cấp cho các mô hình bao gồm ChatGPT của OpenAI, Gemini của Google và Claude của Anthropic mỗi bên 10.000 USD qua bốn vòng độc lập để giao dịch các cổ phiếu công nghệ Hoa Kỳ trong khoảng thời gian hai tuần. Hiệu suất không chỉ kém mà còn cực kỳ không nhất quán. Trong một vòng, mô hình Qwen của Alibaba đã thực hiện 1.418 lệnh giao dịch, trong khi mô hình Grok 4.20 của xAI (thuộc sở hữu của Elon Musk) chỉ thực hiện 158 lệnh.

Kết quả này làm nổi bật một sự phân biệt quan trọng đối với ngành công nghiệp AI trị giá 1,8 nghìn tỷ USD: sự khác biệt giữa nghiên cứu và thực thi. Mặc dù các mô hình từ các gã khổng lồ công nghệ như Google và OpenAI có thể xử lý lượng dữ liệu khổng lồ, nhưng chúng hiện thiếu sự hiểu biết sắc thái về thời điểm thị trường, quy mô vị thế và quản trị rủi ro vốn là yếu tố thiết yếu để giao dịch có lãi. Thất bại này gợi ý rằng tác động tức thời nhất của AI trong tài chính sẽ là vai trò trợ lý (co-pilot) cho các nhà giao dịch con người, chứ không phải là một tác nhân tự trị.

Nghiên cứu so với Thực tế

Các chuyên gia lưu ý rằng LLM xuất sắc trong các nhiệm vụ định hướng nghiên cứu nhưng lại vấp ngã khi thực hiện giao dịch. Azhang chỉ ra rằng các mô hình gặp khó khăn trong việc đánh giá đúng mức tầm quan trọng của vô số biến số thị trường, từ xếp hạng của các nhà phân tích đến hoạt động giao dịch nội gián, dẫn đến các quyết định đặt cược sai thời điểm và sai quy mô. Điều này thể hiện rõ qua việc các mô hình phát triển các "cá tính" riêng biệt—Claude được cho là ưa thích các vị thế mua (long), trong khi Gemini không ngần ngại bán khống (short) cổ phiếu.

Thế mạnh phân tích này đã được xác nhận trong một bài kiểm tra chuẩn riêng biệt của Intelligent Alpha. Trong nghiên cứu đó, tập trung vào việc dự đoán hướng điều chỉnh ước tính lợi nhuận, ChatGPT của OpenAI đã đạt tỷ lệ chính xác 68% cho quý 4 năm 2025. Điều này cho thấy LLM là công cụ mạnh mẽ để phân tích hỗ trợ ra quyết định của con người, ngay cả khi chúng chưa thể được tin tưởng để quản lý danh mục đầu tư một mình.

Vấn đề về Việc Chứng minh Lợi nhuận

Việc đánh giá khả năng giao dịch của AI bị phức tạp hóa bởi một lỗi phương pháp luận cơ bản được gọi là "thiên kiến nhìn trước" (lookahead bias). Một mô hình được thử nghiệm trên dữ liệu thị trường năm 2020 vào năm 2026 đã "biết" trước kết quả, khiến việc kiểm thử ngược (backtesting) lịch sử trở nên vô dụng. Điều này buộc các nhà nghiên cứu phải sử dụng các cuộc thi trực tiếp như Alpha Arena để đánh giá thực tế, mặc dù chúng cũng có những hạn chế riêng.

Jim Moran, cựu đồng sáng lập YipitData, người hiện viết blog Flat Circle, lập luận rằng hầu hết các thí nghiệm công khai đều quá ngắn và có quá nhiều yếu tố gây nhiễu để đưa ra kết luận chắc chắn. Hơn nữa, Alexander Izydorczyk, trước đây thuộc Coatue Management, lưu ý rằng không có bot giao dịch AI nào mà ông theo dõi chứng minh được lợi nhuận vượt mức bền vững, có thể vì chúng thiếu các kỹ thuật định lượng độc quyền được sử dụng bởi các quỹ phòng hộ lớn. Như Izydorczyk đã viết trên blog của mình: "Khi một chiến lược giao dịch bằng tác nhân LLM thực sự bắt đầu hiệu quả, bạn sẽ không được nghe về nó ngay lập tức đâu."

Nof1 có kế hoạch tổ chức mùa thứ hai của Alpha Arena, cung cấp cho các AI nhiều dữ liệu và khả năng hơn. Tuy nhiên, mảng kinh doanh cốt lõi của công ty là cung cấp công cụ cho các nhà giao dịch cá nhân tự xây dựng tác nhân AI của riêng họ, chứ không phải triển khai các quỹ tự trị. Chính mô hình kinh doanh này đóng vai trò như một sự thừa nhận thực tế về tình trạng hiện tại của AI: nó là một công cụ mạnh mẽ, nhưng hiện tại, nó vẫn cần con người tham gia điều khiển.

Bài viết này chỉ nhằm mục đích thông tin và không cấu thành lời khuyên đầu tư.