95% khối lượng công việc AI của doanh nghiệp vẫn chạy trên các mô hình tiên tiến cao cấp — ngay cả đối với những tác vụ đơn giản như tóm tắt văn bản và phân loại email — khi các giám đốc tài chính (CFO) bắt đầu đánh đổi nhân sự tương lai lấy token rẻ hơn trong một sự dịch chuyển cấu trúc đang định hình lại ngân sách công nghệ doanh nghiệp.
"Vấn đề chi phí trên mỗi token đã chuyển từ phòng kỹ thuật lên phòng họp hội đồng quản trị," Alex Nguyen, chuyên gia phân tích AI doanh nghiệp tại Edgen, cho biết. "Các CFO đang nhận ra rằng họ có thể thay thế ba chuyên viên phân tích cấp dưới bằng một tác nhân AI chạy trên một mô hình rẻ hơn, và bài toán này có lợi ở quy mô gấp 10 lần khối lượng."
Số liệu thật rõ ràng. Mô hình V4 Pro của DeepSeek, đạt 80,6% trên chuẩn SWE-bench Verified về mã hóa và 87,5 trên chỉ số lý luận nâng cao MMLU-Pro, có chi phí 0,435 USD trên một triệu token đầu vào và 0,87 USD trên một triệu token đầu ra — rẻ hơn 7 lần về đầu vào và 17 lần về đầu ra so với Claude Sonnet của Anthropic hay GPT-5.5-Med của OpenAI. Phiên bản V4 Flash nhẹ hơn của nó rẻ hơn từ 10 đến 25 lần so với các lựa chọn cấp thấp như Claude Haiku. Khi được lưu trữ nội địa tại Trung Quốc, giá cache-read của DeepSeek rẻ hơn 87 lần so với các lựa chọn đám mây phương Tây, theo bảng giá công bố của công ty.
Khoảng cách chi phí đang buộc phải có một sự đánh giá lại. Uber đã đốt hết toàn bộ ngân sách năm 2026 dành cho Claude Code và Cursor trong bốn tháng đầu năm, với giám đốc điều hành của công ty nói với nhân viên rằng khoản chi phí này đang trở nên "khó biện minh hơn" nếu không có sản phẩm tốt hơn để chứng minh. Brian Chesky của Airbnb cho biết công ty tránh phụ thuộc nhiều vào các mô hình mới nhất của OpenAI trong vận hành sản xuất, thay vào đó ưa chuộng các giải pháp thay thế nhanh hơn, rẻ hơn như Qwen của Alibaba. Giám đốc công nghệ của Pinterest xác nhận công ty đã đạt được chất lượng ngang tầm mô hình tiên tiến với mức giảm 90% chi phí bằng cách hậu huấn luyện mô hình mở Qwen của Alibaba trên "đồ thị thị hiếu" độc quyền của mình.
Cuộc khủng hoảng chi phí token đang thúc đẩy sự phân nhánh vĩnh viễn của thị trường AI doanh nghiệp. Khảo sát quý 1/2026 của VentureBeat với người dùng doanh nghiệp tại các tổ chức có hơn 100 nhân viên cho thấy "chi phí trên mỗi token hoặc mô hình cấp phép" đã tăng từ 25,4% lên 36,7% như một tiêu chí lựa chọn chính từ tháng 1 đến tháng 3, chỉ xếp sau hiệu suất thô. Môi trường sản xuất doanh nghiệp hiện triển khai trung bình 14 mô hình khác nhau cùng lúc để phân luồng khối lượng công việc theo giá và tránh bị khóa vào một nhà cung cấp duy nhất, theo phân tích hạ tầng của Andreessen Horowitz.
Trên OpenRouter, một nền tảng proxy phát triển hàng đầu cho việc sử dụng mô hình, DeepSeek V4 Flash đã chiếm vị trí số 1 trong tuần qua với mức tăng 48% về tiêu thụ token. Ba mô hình hàng đầu của DeepSeek đã xử lý gần 6 nghìn tỷ token trên nền tảng, trong khi GPT-5.5 cao cấp của OpenAI tụt xuống vị trí thứ 15 với 470 tỷ token. OpenRouter gần đây đã huy động được 113 triệu USD trong vòng Series B với sự hậu thuẫn của ServiceNow Ventures, Snowflake Ventures, Databricks Ventures, NVentures của Nvidia và CapitalG của Google — một tín hiệu cho thấy các nhà cung cấp hạ tầng doanh nghiệp đang đặt cược vào định tuyến đa mô hình như một kiến trúc mặc định.
Sự siết chặt biên lợi nhuận mang tính cấu trúc sẽ không tác động đến tất cả các phòng thí nghiệm phương Tây như nhau. Anthropic vẫn được bảo vệ nhờ các sản phẩm phần mềm cao cấp như Claude Code, nơi các nhóm kỹ thuật trả tiền cho độ chính xác xác định trong phát triển sản xuất cốt lõi. OpenAI đối mặt với rủi ro lớn hơn: một phần lớn doanh thu doanh nghiệp của họ phụ thuộc vào các luồng token API đa dụng, khối lượng lớn — chính xác là lớp hàng hóa mà các mô hình trọng số mở đang trở nên phổ biến. Kiến trúc của DeepSeek, nén bộ nhớ đệm khóa-giá trị của mô hình 1,6 nghìn tỷ tham số xuống còn 5,48 gigabyte bộ nhớ băng thông cao cho vòng lặp ngữ cảnh 1 triệu token — so với 89 gigabyte đối với các kiến trúc phương Tây tương đương — khiến lợi thế chi phí mang tính cấu trúc chứ không phải khuyến mại.
Đối với những người mua công nghệ doanh nghiệp, bài toán đang chuyển từ "mô hình nào tốt nhất" sang "mô hình nào tốt nhất cho tác vụ cụ thể này ở mức giá này." Các công ty không tối ưu hóa định tuyến suy luận của mình có nguy cơ bị thu hẹp biên lợi nhuận khi tiêu thụ token AI tăng theo cấp số nhân với việc triển khai các tác nhân tự động đa bước. Những công ty áp dụng kiến trúc mô hình phân tầng — dành các mô hình tiên tiến cao cấp cho lý luận quan trọng trong khi chuyển các tác vụ nền khối lượng lớn sang các lựa chọn trọng số mở rẻ hơn — sẽ thu được khoản tiết kiệm mà các CFO đang yêu cầu.
Bài viết này chỉ nhằm mục đích cung cấp thông tin và không cấu thành lời khuyên đầu tư.