60% doanh nghiệp cắt giảm chi tiêu AI khi chi phí token tăng vọt, UBS phát hiện

Khoảng 60% doanh nghiệp đã áp đặt các biện pháp kiểm soát chi tiêu cho AI, theo UBS, khi mức tiêu thụ token từ các tác nhân AI (agent) và công cụ lập trình đẩy chi phí lên tầm giám sát của CFO, buộc phải chuyển hướng sang các mô hình rẻ hơn, bao gồm cả các giải pháp thay thế mã nguồn mở của Trung Quốc.

"Đây là một gờ giảm tốc lớn, không phải nhỏ," Ali Ghodsi, Giám đốc điều hành của Databricks, nhận xét về sự tái cân bằng này.

Khoảng cách giá giữa các phân khúc rất rõ rệt: Haiku 4.5 của Anthropic tính phí 5 đô la mỗi triệu token đầu ra, trong khi mô hình cao cấp nhất Fable/Mythos 5 có giá 50 đô la — chênh lệch gấp mười lần, khiến việc định tuyến mô hình (model routing) trở nên hấp dẫn về mặt kinh tế. Theo báo cáo, một công ty chứng kiến một người dùng duy nhất tiêu tốn 35.000 đô la chi phí AI hàng tháng trên AWS Bedrock. Một công ty khác đã cắt giảm các công cụ AI nội bộ từ năm xuống còn hai sau khi đốt hết ngân sách token.

Sự thay đổi này đe dọa tăng trưởng doanh thu của các nhà cung cấp AI cao cấp như Anthropic và OpenAI, đồng thời tạo ra cơ hội cho các giải pháp thay thế rẻ hơn. Các mô hình mã nguồn mở của Trung Quốc — Qwen của Alibaba, DeepSeek, MiniMax và GLM của Zhipu — đang lọt vào danh sách mua sắm của doanh nghiệp. Theo báo cáo, một ngân hàng toàn cầu lớn đã triển khai Qwen cục bộ để cân bằng việc sử dụng Claude của Anthropic.

Định tuyến mô định hình lại đường cong chi phí

Phản ứng kỹ thuật quan trọng nhất là định tuyến mô hình — giao các tác vụ đơn giản cho mô hình rẻ và dành các mô hình đắt tiền cho các suy luận phức tạp. Palantir Technologies đã thương mại hóa cách tiếp cận này khoảng một tháng trước với AIP Evolve, trong một trường hợp đã cắt giảm 97% chi phí token của khách hàng. Sản phẩm đã đạt tỷ lệ chấp nhận 90% trong vòng ba tuần kể từ khi ra mắt, theo báo cáo.

Bản phát hành mô hình "Thinking" MAI của Microsoft, một hệ thống 35 tỷ tham số, cũng nhắm vào phân khúc trung gian này — đủ mạnh cho các tác vụ suy luận nhưng rẻ hơn các mô hình tiên tiến. Chiến lược này phản ánh xu hướng chung của ngành là hướng tới AI "đủ tốt" ở mức giá thấp hơn.

Áp lực chi phí đang đẩy nhanh việc áp dụng các mô hình mã nguồn mở của Trung Quốc. AWS Bedrock hiện liệt kê MiniMax, Kimi của Moonshot, Qwen, DeepSeek và GLM trong danh mục mô hình của mình. Microsoft cung cấp DeepSeek thông qua Azure AI Foundry. Mặc dù các mô hình này thường miễn phí hoặc chi phí thấp, hạn chế doanh thu trực tiếp cho các nhà phát triển, chúng tạo ra cơ hội hợp tác — BMW và Alibaba gần đây đã hợp tác xung quanh Qwen cho các ứng dụng ô tô. Việc triển khai cục bộ các mô hình mã nguồn mở cũng tránh được rủi ro pháp lý khi sử dụng AI Trung Quốc được lưu trữ bên ngoài, khiến chúng khả thi cho các ngành được quản lý chặt chẽ như ngân hàng.

Nhà cung cấp đám mây và phần mềm chịu áp lực không đồng đều

Các nền tảng đám mây tương đối được bảo vệ khỏi sự thay đổi chi tiêu. AWS, Azure và Google Cloud vận hành các thị trường đa mô hình, vì vậy khách hàng chuyển từ mô hình cao cấp sang rẻ hơn có thể làm giảm tăng trưởng doanh thu API nhưng vẫn tiêu thụ sức mạnh tính toán. "Doanh nghiệp càng quản lý chi phí, họ càng có xu hướng tập trung hóa việc lựa chọn, triển khai và thanh toán mô hình trên một nền tảng đám mây duy nhất," các nhà phân tích của UBS viết.

Nhu cầu phần cứng cũng vẫn nguyên vẹn. Chip GB200 và GB300 của Nvidia chỉ mới bắt đầu xuất xưởng số lượng lớn, và khối lượng công việc đa phương thức — âm thanh, video, AI vật lý — tiếp tục mở rộng ranh giới tính toán. Câu hỏi dành cho các nhà đầu tư là liệu việc nén giá của các công ty mô hình cuối cùng có thể hạn chế sức mạnh định giá GPU đám mây hay không.

Các nền tảng SaaS lớn nhất phải đối mặt với vị thế phức tạp nhất. Salesforce, ServiceNow và Workday đang thúc đẩy chuyển đổi từ định giá theo đầu người sang định giá theo mức tiêu thụ ngay khi khách hàng trở nên nhạy cảm về chi phí. Sự sai lệch về thời điểm này có thể làm chậm các nỗ lực kiếm tiền từ AI của họ. Tuy nhiên, các công ty phần mềm cũng có cơ hội với tư cách là người tối ưu hóa chi phí AI. AIP Evolve của Palantir là ví dụ rõ ràng nhất, nhưng lợi thế cấu trúc thuộc về bất kỳ nền tảng nào có thể hoạt động như một lớp định tuyến độc lập với mô hình.

UBS Evidence Lab đã khảo sát khoảng 130 công ty và chỉ phát hiện 8% đã triển khai các tác nhân AI vào sản xuất ở quy mô lớn. 37% khác sử dụng chúng trong sản xuất hạn chế, 29% đang thử nghiệm và 26% chỉ sử dụng Copilot hoặc các công cụ lập trình mà không triển khai tác nhân. Phần lớn mức tiêu thụ token từ các tác nhân tự trị vẫn chưa bắt đầu. Harvey, một trợ lý pháp lý AI, đã chứng kiến mức tiêu thụ token của mình tăng lên 12-13 nghìn tỷ token vào tháng 5 từ mức 1 nghìn tỷ token vào tháng 1 — bằng chứng cho thấy tối ưu hóa và mở rộng có thể cùng tồn tại.

Các biện pháp kiểm soát chi tiêu này khác về cơ bản so với việc cắt giảm ngân sách đám mây hậu đại dịch giai đoạn 2022-2024. Đó là việc cắt giảm các hoạt động đã trưởng thành. Còn đây là quản trị chi phí trong giai đoạn đầu của quá trình phổ biến công nghệ. Kết quả không phải là nhu cầu AI biến mất mà là sự sắp xếp lại những người chiến thắng: các nhà cung cấp mô hình cao cấp đối mặt với tăng trưởng doanh thu chậm hơn, các nền tảng tối ưu hóa chi phí được hưởng lợi, các nhà cung cấp đám mây thu thập khối lượng công việc đa mô hình, và các mô hình mã nguồn mở của Trung Quốc giành được chỗ đứng trong cơ sở hạ tầng doanh nghiệp toàn cầu.

Bài viết này chỉ mang tính chất tham khảo và không cấu thành lời khuyên đầu tư.