Định giá 45 tỷ USD của DeepSeek báo hiệu một cuộc cải tổ phần cứng AI trị giá 10 nghìn tỷ USD

Kẻ thách thức AI từ Trung Quốc, DeepSeek, đang vũ khí hóa các hiệu quả kỹ thuật để dàn xếp một cuộc chơi chiến lược dài hạn chống lại thị trường phần cứng AI hiện tại, bắt đầu bằng việc giảm giá vĩnh viễn 75% cho mô hình chủ lực của mình.

Công ty khởi nghiệp AI của Trung Quốc DeepSeek đang tận dụng định giá trước khi đầu tư được báo cáo là 45 tỷ USD từ vòng gọi vốn 70 tỷ Nhân dân tệ mới để cắt giảm vĩnh viễn giá mô hình V4-Pro chủ lực của mình xuống 75%, một bước đi chiến lược được thiết kế để hạ gục các đối thủ cạnh tranh và giảm sự phụ thuộc vào phần cứng cao cấp của phương Tây.

"Nguyên tắc của chúng tôi là không để lỗ, nhưng cũng không kiếm lợi nhuận quá mức", người sáng lập DeepSeek Lương Văn Phong (Liang Wenfeng) đã nói hai năm trước, một triết lý hiện đang được hiện thực hóa khi hiệu quả kỹ thuật của công ty trong các lĩnh vực như KV Cache cho phép cấu trúc chi phí thấp hơn đáng kể.

giá API V4-Pro hiện sẽ được đặt vĩnh viễn ở mức giá khuyến mại, từ 0,025 đến 6 nhân dân tệ cho mỗi triệu token (khoảng 0,0035 USD đến 0,83 USD), giảm từ mức đỉnh 24 nhân dân tệ, công ty đã công bố hôm thứ Bảy. Điều này có được nhờ các đổi mới giúp giảm yêu cầu bộ nhớ HBM cho KV Cache xuống chỉ còn 5,48GB cho ngữ cảnh 1 triệu token, một phần rất nhỏ so với mức 60GB mà một số mô hình đối thủ yêu cầu.

Chiến lược của DeepSeek không chỉ dừng lại ở các cuộc chiến giá API, mà còn nhằm cấu hình lại chuỗi cung ứng phần cứng ước tính trị giá 10 nghìn tỷ USD. Bằng cách tối ưu hóa các mô hình cho bộ nhớ LPDDR và SSD rẻ hơn, công ty đang tạo ra một con đường khả thi cho chip nội địa Trung Quốc cạnh tranh với các nhà lãnh đạo như Nvidia, có khả năng chiếm lĩnh thị phần đáng kể trong thị trường phần cứng mà chính họ giúp tạo ra.

Bàn cờ phần cứng

Chính sách giá gây hấn của DeepSeek là hệ quả trực tiếp của một loạt các đổi mới kỹ thuật sâu sắc được thiết kế để giảm thiểu chi phí phần cứng. Cốt lõi của chiến lược này nằm ở việc thu nhỏ đáng kể KV Cache, thành phần tiêu tốn nhiều bộ nhớ của các mô hình ngôn ngữ lớn. Bằng cách giảm dấu ấn KV Cache của mô hình V4 xuống chưa đầy một phần mười so với các đối thủ cạnh tranh, DeepSeek có thể chuyển dữ liệu này từ bộ nhớ băng thông cao (HBM) đắt tiền sang ổ SSD và bộ nhớ flash NAND phổ thông hơn.

Hiệu quả này tạo ra hiệu ứng gợn sóng qua ngăn xếp phần cứng. Nghiên cứu từ nhóm SGLang cho thấy bộ nhớ LPDDR, rẻ hơn đáng kể so với HBM, có thể đóng vai trò là "vùng đệm trọng số" để truyền các tham số mô hình khi cần thiết, một phương pháp mà kiến trúc Mixture-of-Experts (MoE) của DeepSeek cực kỳ phù hợp. Cách tiếp cận này thay thế hiệu quả bộ nhớ GPU đắt tiền, hiệu suất cao bằng lượng lớn bộ nhớ hệ thống rẻ hơn. Đối với ngành công nghiệp chip nội địa Trung Quốc, vốn đang đối mặt với những hạn chế trong việc sản xuất GPU tiên tiến do các hạn chế về quang khắc EUV, đây là một bước phát triển quan trọng. Nó cho phép các bộ xử lý kém mạnh mẽ hơn vẫn có thể cạnh tranh bằng cách ghép nối chúng với nhiều bộ nhớ hơn, một chiến lược "chuyển làn" để vượt qua sự thiếu hụt về sức mạnh tính toán thuần túy.

Hơn nữa, DeepSeek đã đầu tư vào TileLang, một khung trình biên dịch chéo phần cứng. Lớp phần mềm này nhằm mục đích trừu tượng hóa các khác biệt phần cứng, cho phép mã AI chạy trên nhiều nền tảng khác nhau và lách qua "hào nước CUDA" mạnh mẽ đang khóa chặt nhiều nhà phát triển vào phần cứng của Nvidia.

Con đường đến AGI

Trong khi hiệu quả tức thời là sự gián đoạn trong thị trường phần cứng AI, người sáng lập Lương Văn Phong đã tuyên bố rằng mục tiêu cuối cùng là theo đuổi Trí tuệ Nhân tạo Tổng quát (AGI), theo báo cáo từ một cuộc họp nhà đầu tư gần đây. Chiến lược hiệu quả phần cứng là nền tảng cần thiết cho mục tiêu dài hạn này.

Để đạt được AGI có khả năng sẽ đòi hỏi quá trình đào tạo quy mô lớn, đặc biệt là sử dụng các kỹ thuật như Học tăng cường (RL) và Tự cải thiện đệ quy (RSI), nơi một AI học hỏi và hoàn thiện chính nó thông qua thử và sai. Các phương pháp này đòi hỏi tính toán ở mức độ thiên văn, yêu cầu tạo ra hàng nghìn tỷ token và mô hình hóa các kịch bản "giả định" rộng lớn. Bằng cách kéo giảm chi phí cơ bản của tính toán, DeepSeek làm cho những đợt đào tạo mà trước đây không thể chi trả được trở nên khả thi về mặt kinh tế. Mọi đổi mới, từ các mô hình MoE đến nén KV Cache, đều hội tụ về mục tiêu duy nhất là làm cho việc đào tạo AGI đủ rẻ để theo đuổi.

Điều này làm cho chiến lược gây quỹ và định giá của DeepSeek xuất hiện dưới một góc nhìn mới. Công ty không chỉ đơn thuần bán quyền truy cập API; họ đang xây dựng một liên minh gồm các đối tác phần cứng và nhà đầu tư, bao gồm CATL và các quỹ liên kết với nhà nước, để xây dựng một chuỗi cung ứng AI tự cung tự cấp. Đối với các nhà đầu tư, ván cược này không nằm ở một công ty phần mềm, mà nằm ở một chốt chặn chiến lược có thể định hình lại sự cân bằng quyền lực toàn cầu trong AI bằng cách thay đổi căn bản phương trình kinh tế về việc ai có thể đủ khả năng xây dựng nó. Điều này định vị DeepSeek là một đối thủ thách thức trực tiếp không chỉ với các phòng thí nghiệm AI khác mà với toàn bộ hệ sinh thái phần cứng, bao gồm cả Nvidia, vốn là nền tảng của sự bùng nổ AI hiện nay.

Bài viết này chỉ dành cho mục đích thông tin và không cấu thành lời khuyên đầu tư.