DeepSeek V4 cắt giảm 73% chi phí AI, thách thức vị thế thống trị của Nvidia

Kiến trúc AI mới từ startup Trung Quốc DeepSeek hứa hẹn vận hành các mô hình triệu token với ít hơn 73% tài nguyên tính toán, đe dọa trực tiếp cấu trúc chi phí của thị trường phần cứng AI hiện nay. Công ty tuyên bố mô hình V4 mới của họ có thể xử lý ngữ cảnh một triệu token chỉ với 27% sức mạnh tính toán và 10% bộ nhớ so với phiên bản tiền nhiệm, một sự thay đổi cấu trúc có thể làm giảm đáng kể chi phí cho các nhà phát triển và gia tăng cạnh tranh cho các đối thủ như Nvidia và Google.

"Từ nay về sau, ngữ cảnh 1 triệu token sẽ là cấu hình tiêu chuẩn cho tất cả các dịch vụ chính thức của DeepSeek," công ty cho biết trong thông báo chính thức. Động thái này là một thách thức trực tiếp đối với chi phí cao liên quan đến AI ngữ cảnh lớn, một vấn đề mà CEO Nvidia Jensen Huang đã nhấn mạnh là rào cản quan trọng. Trong khi các điểm chuẩn của DeepSeek cho thấy nó vẫn bám đuổi các mô hình đóng tiên tiến nhất của Google về kiến thức tổng quát, những cải thiện về hiệu suất của nó đại diện cho một mối đe dọa mới đáng gờm trong cuộc chạy đua vũ trang AI.

Hiệu quả của mô hình V4 bắt nguồn từ kiến trúc Hybrid Attention mới. Nó giảm tải trọng tính toán, đo bằng các phép toán dấu phẩy động mỗi giây (FLOPs), xuống chỉ còn 27% so với mô hình V3.2 trước đó cho một lần suy luận token đơn lẻ ở ngữ cảnh 1 triệu token. Bộ đệm KV (KV cache), một nút thắt cổ chai chính cho bộ nhớ, được giảm xuống chỉ còn 10% so với phiên bản trước. Công ty đã phát hành hai phiên bản: V4-Pro, mô hình 1,6 nghìn tỷ tham số và mô hình V4-Flash nhỏ hơn, cả hai đều có sẵn theo giấy phép mã nguồn mở MIT.

Đối với các nhà đầu tư, bước đột phá của DeepSeek đại diện cho một sự gián đoạn tiềm tàng đối với thị trường hiện tại. Bằng cách thiết kế một mô hình ít phụ thuộc hơn vào sức mạnh tính toán thô, công ty tạo ra cơ hội cho các phần cứng thay thế, chẳng hạn như chip Ascend của Huawei. Điều này phù hợp với những cảnh báo từ chính CEO của Nvidia về việc Trung Quốc đang xây dựng hệ sinh thái AI độc lập của riêng mình. DeepSeek, được cho là đang tìm kiếm mức định giá trên 20 tỷ USD với sự hậu thuẫn từ Alibaba và Tencent, có thể thu hẹp biên lợi nhuận cho các nhà cung cấp đám mây và nhà sản xuất chip nếu lợi thế chi phí của nó được chứng minh là có khả năng mở rộng và thúc đẩy việc áp dụng rộng rãi.

Một cuộc tấn công cấu trúc vào chi phí tính toán

Sáng tạo cốt lõi đằng sau DeepSeek V4 là cách tiếp cận hai hướng nhằm thiết kế lại cơ chế chú ý (attention mechanism), trái tim tính toán của mô hình transformer. Cơ chế chú ý tiêu chuẩn yêu cầu mỗi token phải tính toán điểm số liên quan với mọi token khác trong một chuỗi, dẫn đến độ phức tạp tính toán tăng theo cấp số nhân — một rào cản lớn đối với việc thương mại hóa các cửa sổ ngữ cảnh triệu token.

Giải pháp của DeepSeek kết hợp Chú ý Thưa nén (Compressed Sparse Attention - CSA) và Chú ý Nén sâu (Heavily Compressed Attention - HCA). CSA sử dụng một cơ chế có thể đào tạo để học xem các kết nối token nào đủ quan trọng cho một lần tính toán đầy đủ, tạo ra một cấu trúc thưa thớt một cách năng động thay vì tính toán mọi thứ. HCA giải quyết vấn đề bộ nhớ bằng cách nén bộ đệm KV, dữ liệu phải được lưu giữ trong bộ nhớ GPU đắt tiền trong quá trình suy luận. Cùng với nhau, những đổi mới này cho phép DeepSeek phục vụ gấp 3 đến 4 lần số lượng người dùng đồng thời trên cùng một phần cứng so với các kiến trúc truyền thống.

Điểm chuẩn tiết lộ một mối đe dọa chuyên biệt

Mặc dù hiệu quả của DeepSeek V4-Pro là tính năng chính, nhưng các điểm chuẩn hiệu suất của nó vẽ nên bức tranh về một đối thủ cạnh tranh chuyên biệt. Mô hình này xuất sắc trong toán học và lập trình, đạt 3206 điểm trên Codeforces, vượt qua các điểm số được báo cáo của các mô hình từ OpenAI và Google. Tuy nhiên, trong các bài kiểm tra về kiến thức thế giới tổng quát và suy luận nâng cao, nó vẫn còn tụt hậu. Trên thang điểm chuẩn SimpleQA-Verified, V4 ghi được 57,9 điểm, kém xa số điểm 75,6 của Gemini 3.1 Pro từ Google.

Điều này cho thấy DeepSeek đang tập trung nguồn lực vào các năng lực cụ thể, có giá trị cao, nơi họ có thể thiết lập vị trí dẫn đầu rõ ràng, thay vì cố gắng đánh bại các mô hình hàng đầu trên mọi mặt trận. Chiến lược này, kết hợp với cách tiếp cận mã nguồn mở và chi phí thấp, đã giúp họ đứng đầu bảng xếp hạng tải xuống của App Store Apple trong những tuần đầu tiên, cho thấy nhu cầu thị trường mạnh mẽ đối với các lựa chọn thay thế cho các mô hình độc quyền, đắt đỏ từ các gã khổng lồ công nghệ Mỹ. Sự trỗi dậy của một mô hình mạnh mẽ, tiết kiệm chi phí được tối ưu hóa cho phần cứng không thuộc Mỹ chính xác là kịch bản mà Jensen Huang của Nvidia mô tả là một "kết quả khủng khiếp cho quốc gia chúng ta," và nó dường như đang diễn ra nhanh hơn nhiều người mong đợi. Câu hỏi then chốt đối với các nhà đầu tư là lợi thế kiến trúc này chuyển hóa nhanh như thế nào thành thị phần và doanh thu, và liệu các đối thủ lâu đời như Nvidia có thể điều chỉnh lộ trình của chính họ để chống lại mối đe dọa từ một thế giới phần cứng AI đa cực và hiệu quả hơn hay không.

Bài viết này chỉ nhằm mục đích cung cấp thông tin và không cấu thành lời khuyên đầu tư.