Một giao thức mạng mới được phát triển cùng OpenAI và Nvidia nhằm giải quyết nút thắt cổ chai lớn nhất trong việc đào tạo các mô hình AI quy mô lớn.
Quay lại
Một giao thức mạng mới được phát triển cùng OpenAI và Nvidia nhằm giải quyết nút thắt cổ chai lớn nhất trong việc đào tạo các mô hình AI quy mô lớn.

OpenAI, hợp tác với các gã khổng lồ công nghệ Nvidia, Microsoft, AMD, Intel và Broadcom, đã giới thiệu một giao thức mạng mới được thiết kế để ngăn chặn tình trạng chậm trễ tốn kém trong việc đào tạo các mô hình trí tuệ nhân tạo tiên tiến. Công nghệ này, được gọi là Multipath Reliable Connection (MRC), đã được triển khai trong một số siêu máy tính AI lớn nhất thế giới để di chuyển các tập dữ liệu khổng lồ giữa các GPU một cách hiệu quả và đáng tin cậy hơn.
"Mục tiêu của chúng tôi không chỉ là xây dựng một mạng lưới nhanh chóng, mà còn xây dựng một mạng lưới mang lại hiệu suất cực kỳ ổn định, ngay cả khi có sự cố xảy ra, để giữ cho các tác vụ đào tạo tiếp tục vận hành," OpenAI cho biết trong một bài đăng trên blog công bố sáng kiến này.
MRC là một giao thức vận chuyển truy cập bộ nhớ trực tiếp từ xa (RDMA) thay đổi căn bản cách dữ liệu di chuyển trong một nhà máy AI. Thay vì dựa vào một đường truyền mạng duy nhất, vốn có thể tạo ra nút thắt cổ chai hoặc làm dừng việc đào tạo nếu bị lỗi, MRC phân chia lưu lượng truy cập qua hàng trăm đường truyền khác nhau đồng thời. Giao thức này được tích hợp vào các giao diện mạng 800Gb/s mới nhất và đã được sử dụng trong các siêu máy tính Nvidia GB200 lớn nhất của OpenAI và đang được Microsoft triển khai trong các trung tâm dữ liệu Azure của mình.
Động thái này giải quyết một lỗ hổng quan trọng trong tính kinh tế của AI. Khi đào tạo một mô hình tiên tiến trên hàng chục nghìn GPU, ngay cả một sự đình trệ mạng kéo dài một mili giây cũng có thể khiến phần cứng máy tính trị giá hàng triệu đô la bị nhàn rỗi. Bằng cách cung cấp nhiều đường truyền dư thừa và trí thông minh để điều hướng quanh các điểm nghẽn, MRC được thiết kế để tối đa hóa việc sử dụng các hệ thống AI đắt tiền này, tác động trực tiếp đến lợi nhu cầu đầu tư của các công ty đang chi hàng tỷ đô la cho cơ sở hạ tầng AI.
Đào tạo các mô hình AI lớn liên quan đến việc trao đổi dữ liệu liên tục, dung lượng cao giữa hàng nghìn GPU vốn phải duy trì sự đồng bộ. Trong mạng truyền thống, nếu một liên kết trong đường truyền bị nghẽn hoặc một bộ chuyển mạch bị lỗi, toàn bộ tác vụ có thể tạm dừng trong khi hệ thống định tuyến lại. Sự chậm trễ này, được gọi là sự kiện "độ trễ đuôi" (tail latency), là nguồn gây ra sự kém hiệu quả lớn.
MRC giải quyết vấn đề này theo nhiều cách. Giao thức sử dụng các tín hiệu thời gian thực từ cấu trúc mạng để phát hiện và điều hướng lưu lượng truy cập khỏi các liên kết quá tải. Khi dữ liệu bị mất, nó có thể được truyền lại nhanh chóng và chính xác, giảm thiểu tác động của các lỗi. Theo Nvidia, nền tảng Spectrum-X của họ, chạy MRC, có thể phát hiện lỗi đường truyền và định tuyến lại lưu lượng truy cập trong phần cứng trong vòng vài phần triệu giây (microseconds). Điều này cho phép một "khách thuê thông minh" như OpenAI có quyền kiểm soát lớn hơn đối với việc định tuyến và hành vi mạng, ngay cả khi chạy trên cơ sở hạ tầng của nhà cung cấp dịch vụ đám mây như Microsoft Azure.
Trong một động thái quan trọng nhằm thúc đẩy sự chấp nhận rộng rãi, đặc tả kỹ thuật của MRC đã được công bố rộng rãi thông qua Open Compute Project (OCP), một tổ chức trong ngành thúc đẩy các thiết kế phần cứng mã nguồn mở. Sự tham gia của AMD, Intel và Broadcom cùng với Nvidia và Microsoft báo hiệu một nỗ lực hợp tác nhằm xây dựng một tiêu chuẩn chung cho mạng AI hiệu suất cao.
Tuy nhiên, đặc tả kỹ thuật mở đi kèm với một động lực cạnh tranh. Trong khi bất kỳ ai cũng có thể triển khai giao thức này, Nvidia đang đặt cược rằng việc thực thi đặc thù trên phần cứng trên các bộ chuyển mạch Spectrum-X và SuperNIC của mình sẽ mang lại hiệu suất vượt trội. Chiến lược "tiêu chuẩn mở, triển khai khác biệt" này là một dấu ấn thành công của Nvidia. Gilad Shainer, Phó Chủ tịch Cấp cao tại Nvidia, lưu ý rằng ông kỳ vọng nhiều loại giao thức Ethernet sẽ cùng tồn tại, được điều chỉnh cho các nhu cầu khác nhau của khách hàng, thay vì một tiêu chuẩn duy nhất kiểu "được ăn cả ngã về không" như tiêu chuẩn do Ultra Ethernet Consortium (UEC) đề xuất.
Đối với các nhà đầu tư, thông báo này củng cố vị thế cạnh tranh của các công ty liên quan. Nó củng cố vai trò của Nvidia như một nhà cung cấp các hệ thống AI toàn diện, không chỉ là chip. Đối với Microsoft, nó nâng cao hiệu suất và khả năng phục hồi của đám mây Azure, một yếu tố then chốt trong việc thu hút và giữ chân các khách hàng AI lớn như OpenAI. Sự tham gia của AMD và Intel đảm bảo họ vẫn là một phần của cuộc chơi, ngăn chặn việc bị khóa chặt hoàn toàn bởi một nhà cung cấp duy nhất và cung cấp cho ngành nhiều hướng đi khác nhau.
Bài viết này chỉ nhằm mục đích thông tin và không cấu thành lời khuyên đầu tư.