CoreWeave huấn luyện DeepSeek-V3 trong 2 phút, lập kỷ lục điện toán đám mây AI

CoreWeave đã huấn luyện mô hình DeepSeek-V3 với 671 tỷ tham số trong chỉ hơn hai phút, một kết quả khẳng định chiến lược hạ tầng toàn diện của nhà cung cấp đám mây AI thuần bản địa.

CoreWeave Inc. đã huấn luyện DeepSeek-V3, mô hình 671 tỷ tham số, trong 2,02 phút trên 8.192 GPU NVIDIA GB300 — kết quả nhanh nhất trong bài đánh giá MLPerf Training v6.0 và là cụm GB300 lớn nhất tham gia vòng này.

"Huấn luyện DeepSeek-V3 trong hai phút trên cụm GB300 lớn nhất phản ánh nhiều năm đầu tư kỹ thuật từ phần cứng đến mô hình," Chen Goldberg, phó chủ tịch điều hành sản phẩm và kỹ thuật tại CoreWeave, cho biết.

Công ty đã chứng minh khả năng mở rộng gần như tuyến tính trên ba quy mô cụm: 2,02 phút trên 8.192 GPU, 3,09 phút trên 4.096 GPU và 5,54 phút trên 2.048 GPU. CoreWeave cũng huấn luyện Llama-3.1-405B trong 9,77 phút trên 4.096 GPU GB300, sử dụng ít hơn 20% số GPU so với các triển khai GB200 tương đương. Trên cụm B200 nhỏ gọn 64 GPU, công ty huấn luyện GPT-OSS-20B trong 26,98 phút và Llama-3.1-8B trong 16,54 phút.

Các kết quả này, đạt được trên cùng hạ tầng sẵn có cho khách hàng, củng cố vị thế của CoreWeave trước các hyperscaler trong thị trường huấn luyện AI chuyên biệt. Cổ phiếu CoreWeave giao dịch trên Nasdaq với mã CRWV sau khi niêm yết vào tháng 3/2025.

Kết quả MLPerf v6.0 tiết lộ điều gì về thị trường huấn luyện AI

MLPerf Training v6.0, được MLCommons phát hành ngày 16 tháng 6, bổ sung hai bài đánh giá mới — DeepSeek V3 và GPT-OSS 20B — cả hai đều dựa trên kiến trúc Mixture-of-Experts, chỉ kích hoạt một phần nhỏ tổng số tham số của mô hình cho mỗi token. DeepSeek V3 sử dụng 671 tỷ tổng tham số với 37 tỷ tham số được kích hoạt mỗi token, trở thành bài đánh giá lớn nhất trong lịch sử bộ tiêu chuẩn. GPT-OSS 20B, với 21 tỷ tổng tham số và 3,6 tỷ tham số được kích hoạt, được thiết kế như điểm khởi đầu cho các tổ chức có cấu hình phần cứng nhỏ hơn.

Vòng này thu hút 24 tổ chức tham gia với 95 hệ thống độc đáo, sử dụng 13 bộ tăng tốc phần cứng khác nhau và 19 bộ xử lý máy chủ. Số lượng hệ thống đám mây tham gia tăng hơn gấp đôi so với phiên bản 5.1 cách đây sáu tháng, phản ánh thị trường huấn luyện AI lưu trữ đang phát triển. 60% hệ thống tham gia là đa nút.

"Khoảng cách giữa hiệu suất điểm chuẩn và thực tế sản xuất vẫn là một trong những thách thức dai dẳng nhất trong hạ tầng AI," Brendan Burke, giám đốc nghiên cứu tại Futurum Research, nhận định. "Kết quả MLPerf Training v6.0 của CoreWeave, đặc biệt là huấn luyện DeepSeek-V3 trong hai phút trên cụm GB300 lớn nhất trong bài đánh giá, chứng minh rằng chuyên môn AI toàn diện giúp nhân đôi lợi thế hiệu suất thực tế khi phần cứng mới xuất hiện."

Hạ tầng của CoreWeave đã thúc đẩy kết quả như thế nào

CoreWeave cho rằng hiệu suất của mình đến từ sự tối ưu hóa trên mọi lớp của nền tảng. CoreWeave Mission Control thực hiện kiểm tra sức khỏe liên tục trên các hệ thống quy mô rack, xác thực điều kiện phần cứng, firmware, mạng và nhiệt trước và trong quá trình huấn luyện quy mô lớn để giảm thiểu các tác vụ chậm. Bộ lập lịch SUNK của công ty có nhận thức về cấu trúc liên kết, đặt các nhóm song song chuyên gia trong cùng một miền NVL72 để giảm thiểu giao tiếp liên rack cho khối lượng công việc MoE. Chiến lược mạng nhận thức đường ray cân bằng lưu lượng truy cập trên toàn bộ hệ thống kết nối để ngăn ngừa điểm nóng ở quy mô hàng nghìn GPU.

Các lần chạy sử dụng NVIDIA NeMo Framework Release 26.04 với đồ thị CUDA và phân chia song song Tensor, pipeline và context-parallel phù hợp với cấu trúc liên kết GB300 NVL72, cùng với NVIDIA Spectrum-X Ethernet chạy RoCE cho hệ thống kết nối mở rộng.

CoreWeave là người tham gia duy nhất mở rộng nền tảng GB300 vượt quá 2.048 GPU trên DeepSeek-V3. Công ty cũng là đám mây AI duy nhất đạt xếp hạng Bạch kim cao nhất trong cả SemiAnalysis ClusterMAX 1.0 và 2.0.

Ý nghĩa đối với bức tranh cạnh tranh đám mây AI

Kết quả điểm chuẩn của CoreWeave đến trong bối cảnh nhu cầu về hạ tầng huấn luyện AI đang tăng tốc. Sharon AI (SHAZ) tăng khoảng 25% vào thứ Sáu sau khi công bố thỏa thuận hợp tác điện toán chiến lược kéo dài sáu năm với NVIDIA, có thể bao gồm tới 40.000 GPU GB300 trên 72 megawatt công suất trung tâm dữ liệu mới tại Australia. Thỏa thuận này mở rộng tổng diện tích nhà máy AI của Sharon AI lên 132 megawatt.

Đối với CoreWeave, kết quả MLPerf cung cấp sự xác nhận độc lập cho nền tảng của công ty tại thời điểm các doanh nghiệp đang đánh giá các nhà cung cấp đám mây cho khối lượng công việc AI quy mô lớn. Khả năng cung cấp khả năng mở rộng gần như tuyến tính trên các mô hình MoE đòi hỏi khắt khe nhất — trong khi sử dụng cùng hạ tầng mà công ty cung cấp cho khách hàng — tạo ra sự khác biệt có thể đo lường được so với Amazon Web Services, Microsoft Azure và Google Cloud, những đơn vị cũng tham gia vòng v6.0.

Cổ phiếu của CoreWeave, niêm yết vào tháng 3/2025, đã là một đại diện cho quá trình xây dựng hạ tầng AI. Kết quả MLPerf mang đến cho nhà đầu tư một điểm chuẩn cụ thể để đánh giá liệu cách tiếp cận toàn diện của công ty có chuyển hóa thành lợi thế cạnh tranh bền vững khi thị trường huấn luyện AI chuyển dịch sang các kiến trúc tính toán thưa hay không.

Bài viết này chỉ nhằm mục đích cung cấp thông tin và không cấu thành lời khuyên đầu tư.