Cosmos 3 của Nvidia đánh dấu bước tiến của gã khổng lồ chip vào lĩnh vực mô hình AI nền tảng cho robot, kết hợp suy luận thị giác với khả năng tạo sinh đa phương thức.
Cosmos 3 của Nvidia, mô hình đa năng mã nguồn mở hoàn toàn đầu tiên cho AI vật lý, đưa công ty vượt ra khỏi lĩnh vực phần cứng GPU để tiến vào lãnh thổ mô hình nền tảng với kiến trúc hỗn hợp các bộ biến đổi (mixture-of-transformers) cho mô phỏng thế giới và robot.
"Cosmos 3 là mô hình nền tảng AI vật lý mã nguồn mở dẫn đầu bảng xếp hạng, được xây dựng trên kiến trúc hỗn hợp các bộ biến đổi đột phá, hợp nhất thị giác, ngôn ngữ và hành động," công ty cho biết trong thông báo ngày 1 tháng 6.
Mô hình hỗ trợ suy luận thị giác gốc và tạo ra đầu ra dạng văn bản, hình ảnh, video, âm thanh môi trường và hành động để phục vụ việc tạo dữ liệu tổng hợp và phát triển chính sách AI vật lý. Nvidia cũng phát hành Alpamayo 2 Super, một mô hình suy luận thị giác-ngôn ngữ-hành động mã nguồn mở với 32 tỷ tham số, cùng với một bộ các kỹ năng tác tử AI vật lý mã nguồn mở trên các nền tảng Omniverse, Cosmos và Metropolis.
Việc mở rộng sang các mô hình nền tảng giúp Nvidia nắm bắt giá trị vượt xa mảng kinh doanh GPU trung tâm dữ liệu, vốn đã tạo ra 62 tỷ USD doanh thu trong năm tài khóa 2025. AI vật lý — bao gồm xe tự hành, robot kho hàng và tự động hóa công nghiệp — đại diện cho một thị trường địa chỉ mới có thể biện minh cho bội số thu nhập dự phóng 35 lần của công ty nếu Cosmos trở thành nền tảng tiêu chuẩn cho phát triển robot.
Kiến trúc hỗn hợp các bộ biến đổi làm nền tảng cho Cosmos 3 thể hiện một bước tiến kỹ thuật so với các mô hình AI trước đây của Nvidia. Không giống như các mô hình ngôn ngữ lớn xử lý văn bản tuần tự, Cosmos 3 xử lý đồng thời dữ liệu thị giác, ngôn ngữ và hành động, cho phép mô phỏng các tương tác trong thế giới vật lý — một khả năng cần thiết để huấn luyện robot và hệ thống tự hành mà không cần thử nghiệm sai trong thế giới thực.
Chiến lược phát hành mã nguồn mở này tương tự cách tiếp cận của Meta với dòng mô hình ngôn ngữ Llama, định vị Cosmos 3 như một tiêu chuẩn tiềm năng cho nghiên cứu và phát triển robot. Bằng cách cung cấp miễn phí mô hình, Nvidia nhằm xây dựng một mạng lưới các nhà phát triển và công ty phụ thuộc vào phần cứng của hãng cho việc huấn luyện và suy luận, tạo ra một hào phần mềm xung quanh mảng kinh doanh GPU.
Cục diện cạnh tranh vượt ra ngoài các đối thủ chip trực tiếp của Nvidia. Tesla đang phát triển các mô hình AI riêng cho xe tự hành và robot hình người, trong khi Google DeepMind đã đầu tư mạnh vào mô phỏng thế giới vật lý thông qua các nền tảng MuJoCo và Gemini. Amazon, thông qua bộ phận robot của mình, đại diện cho một khách hàng và cũng là đối thủ cạnh tranh tiềm năng trong lĩnh vực tự động hóa kho hàng.
Đối với các nhà đầu tư, câu hỏi đặt ra là liệu Cosmos 3 có thể chuyển đổi sự chấp nhận từ mạng lưới thành nhu cầu GPU hay không. Mỗi lần huấn luyện AI vật lý đòi hỏi hàng nghìn GPU Nvidia — một phiên huấn luyện mô hình robot đơn lẻ có thể tiêu thụ 10.000 đến 25.000 GPU tương đương H100 trong nhiều tuần. Nếu Cosmos 3 trở thành nền tảng mặc định cho phát triển AI vật lý, nó có thể thúc đẩy một chu kỳ chi tiêu vốn trung tâm dữ liệu mới vượt xa việc xây dựng các mô hình ngôn ngữ lớn hiện tại.
Cổ phiếu Nvidia đã tăng 140% trong 12 tháng qua, được thúc đẩy bởi chi tiêu hạ tầng AI từ Microsoft, Amazon và Google. Việc ra mắt Cosmos 3 mở rộng câu chuyện ra ngoài GPU trung tâm dữ liệu sang lĩnh vực robot và AI vật lý, một thị trường mà ARK Invest ước tính có thể đạt 24 nghìn tỷ USD doanh thu toàn cầu vào năm 2040.
Bài viết này chỉ mang tính chất thông tin và không cấu thành lời khuyên đầu tư.