Việc mô phỏng một cụm 50.000 GPU trước khi một giá đỡ nào được lắp đặt đánh dấu một sự thay đổi trong cách cơ sở hạ tầng AI được xây dựng — và ai có thể xây dựng nó.
IREN Ltd. đang hợp tác với BE Networks để sử dụng nền tảng mô phỏng DSX Air của NVIDIA nhằm xác thực kiến trúc mạng cho đợt triển khai sắp tới của hãng với hơn 50.000 GPU NVIDIA Blackwell Ultra, các công ty cho biết hôm thứ Hai. Sáng kiến này tạo ra một bản sao kỹ thuật số đại diện cho sản xuất của môi trường đám mây AI của IREN trước khi cơ sở hạ tầng vật lý được triển khai, cho phép các công ty mô hình hóa hành vi cụm, xác thực cấu trúc liên kết mạng và kiểm tra quy trình tự động hóa — giải quyết những gì đã trở thành nút thắt cổ chai trong các triển khai AI quy mô lớn.
"Cơ sở hạ tầng đám mây AI ở quy mô này đòi hỏi độ chính xác cực cao", Denis Skrinnikoff, giám đốc công nghệ tại IREN cho biết. "Bằng cách kết hợp NVIDIA DSX Air với chuyên môn tự động hóa của BE Networks, chúng tôi có thể xác thực các quyết định thiết kế và vận hành quan trọng trước khi triển khai, giảm rủi ro tích hợp và đưa năng lực của khách hàng vào hoạt động với độ tin cậy cao hơn."
Môi trường mô phỏng bao gồm toàn bộ ngăn xếp nhà máy AI của NVIDIA — máy tính Blackwell Ultra, kết nối mạng Spectrum-X Ethernet và mạng mở rộng quy mô NVLink — cùng với các lớp lưu trữ, điều phối và bảo mật. BE Networks sẽ hỗ trợ quá trình triển khai với nền tảng tự động hóa Verity của mình, chuyển đổi các thiết kế đã được xác thực thành các quy trình có thể lặp lại xuyên suốt các giai đoạn Thiết kế Ngày 0, Vận hành Ngày 1 và Vận hành Ngày 2. Cách tiếp cận này nhằm rút ngắn thời gian xác thực từ vài tháng xuống còn vài tuần, theo Gilad Shainer, phó chủ tịch cấp cao mạng lưới của NVIDIA.
"Nhà máy AI là một trong những hệ thống phức tạp nhất từng được xây dựng, và mô phỏng đang trở nên thiết yếu để triển khai chúng với tốc độ và quy mô", Shainer cho biết.
Nền tảng DSX mở rộng trên toàn hệ sinh thái
Việc triển khai diễn ra khi NVIDIA mở rộng nền tảng DSX, được công bố tại GTC Taipei ngày 31 tháng 5, kết hợp các thư viện phần mềm mã nguồn mở, thiết kế tham chiếu và công nghệ đối tác thành một khuôn khổ thống nhất cho thiết kế và vận hành nhà máy AI. Các đối tác đám mây bao gồm CoreWeave, Crusoe, Firmus, Lambda, Nebius, Nscale và Yotta Data Services đã triển khai các thành phần DSX — DSX Sim, DSX MaxLPS và DSX OS — để giảm rủi ro và cải thiện mức sử dụng GPU.
Về phần cứng, Dell Technologies, Hewlett Packard Enterprise, Lenovo và Supermicro đang xây dựng các hệ thống tương thích DSX cùng với các nhà sản xuất có trụ sở tại Đài Loan là ASUS, Foxconn, GIGABYTE, Pegatron, Quanta Cloud Technology, Wistron và Wiwynn. Các nhà tích hợp hệ thống Quanta Cloud Technology và Pegatron đang hợp tác với Dassault Systèmes để tạo ra một trình cấu hình bản sao kỹ thuật số nhà máy AI trực tiếp, tự động hóa thiết kế từ giá đỡ đến cơ sở.
Ý nghĩa của mô phỏng đối với cuộc đua cơ sở hạ tầng AI
Đối với IREN, khả năng mô phỏng trước khi xây dựng giúp giảm rủi ro tích hợp trong bối cảnh các nhà cung cấp đám mây AI chịu áp lực phải đưa năng lực vào hoạt động nhanh hơn trong khi vẫn duy trì độ tin cậy. Mô hình tích hợp dọc của công ty — sở hữu cả cơ sở hạ tầng trung tâm dữ liệu và cụm GPU tại các khu vực giàu năng lượng tái tạo ở Bắc Mỹ, châu Âu và châu Á Thái Bình Dương — giúp công ty có vị thế cạnh tranh với các nhà siêu quy mô lớn hơn trong khối lượng công việc huấn luyện và suy luận AI.
Cách tiếp cận này cũng hạ thấp rào cản cho các nhà cung cấp đám mây nhỏ hơn để triển khai ở mức độ phức tạp siêu quy mô. Bằng cách xác thực các thiết kế mạng trong một môi trường ảo, các công ty có thể tránh được việc làm lại tốn kém trong quá trình triển khai vật lý — một rủi ro đã làm trì hoãn các dự án nhà máy AI trên toàn ngành. Shainer của NVIDIA cho biết DSX cho phép các tổ chức xác thực thiết kế cơ sở hạ tầng trong vài tuần thay vì vài tháng và triển khai phần mềm trong vài ngày thay vì vài tuần.
Đối với các nhà đầu tư, quan hệ đối tác này báo hiệu rằng việc xây dựng cơ sở hạ tầng AI vẫn đang trên quỹ đạo tăng trưởng mạnh mẽ. Cụm 50.000 GPU của IREN, nếu được triển khai thành công, sẽ nằm trong số các siêu máy tính AI tại một địa điểm lớn hơn, cạnh tranh với các cụm do CoreWeave và Lambda vận hành. Công ty không tiết lộ tổng chi tiêu vốn cho việc triển khai hoặc mốc thời gian khi nào cụm sẽ đi vào hoạt động.
Bài viết này chỉ mang tính chất tham khảo và không cấu thành lời khuyên đầu tư.