Những điểm chính:
- Pulsar 16B mang lại khả năng suy luận ngang tầm 30B với tổng số 16,15 tỷ tham số
- Đạt 87,22 điểm trên chuẩn AIME 2025, ngang bằng với mô hình gốc chưa nén
- Chạy nhanh hơn 43% so với mô hình gốc trên GPU Nvidia Blackwell
Những điểm chính:

Pulsar 16B mã nguồn mở của Multiverse Computing mang lại hiệu suất suy luận đẳng cấp tiên phong với chỉ một nửa số tham số so với các mô hình tương đương, được xác thực trên hạ tầng tăng tốc của Nvidia.
Pulsar 16B của Multiverse Computing đạt hiệu suất suy luận ngang với các mô hình 30 tỷ tham số chỉ với tổng số 16,15 tỷ tham số và 3,1 tỷ tham số hoạt động, cắt giảm gần một nửa dấu chân tính toán trong khi vẫn duy trì điểm chuẩn trên các tác vụ toán học, khoa học và lập trình.
"Chạy AI tiên tiến cục bộ trước đây luôn đòi hỏi phải đánh đổi giữa kích thước mô hình và hiệu suất," Enrique Lizaso, đồng sáng lập kiêm giám đốc điều hành của Multiverse Computing, cho biết. "Điều chúng tôi đang chứng minh với Pulsar 16B là khả năng suy luận đẳng cấp tiên phong giờ đây có thể được triển khai mà không cần hạ tầng quy mô đám mây, với dấu chân mà doanh nghiệp thực sự có thể vận hành và mở rộng một cách kinh tế."
Được xây dựng trên phiên bản nén của Nemotron 3 Nano của Nvidia — kiến trúc hybrid Mamba2-Transformer với Mixture-of-Experts — Pulsar 16B đạt 87,22 điểm trên chuẩn suy luận toán học AIME 2025, chỉ kém một phần mười điểm so với mô hình gốc 31,6 tỷ tham số chưa nén và vượt 15 điểm so với gpt-oss-20B. Trên GPQA-Diamond, một chuẩn khoa học cấp độ tiến sĩ, mô hình đạt 71,41 điểm, ngang bằng với mô hình chưa nén và vượt xa mức 58,88 của gpt-oss-20B. Mô hình cũng vượt trội hơn gpt-oss-20B 14 điểm về khả năng làm theo hướng dẫn và 11 điểm về khả năng gọi hàm.
Hiệu quả này chuyển trực tiếp thành chi phí triển khai thấp hơn. Trên một GPU Nvidia Blackwell xử lý 32 yêu cầu đồng thời, Pulsar 16B ở độ chính xác FP8 đạt 4.808 token mỗi giây thông lượng hệ thống, tăng 43% so với 3.363 token mỗi giây của mô hình gốc, đồng thời cắt giảm thời gian đến token đầu tiên từ 2,18 giây xuống còn 1,24 giây. Đối với các doanh nghiệp chạy khối lượng công việc đại lý đồng thời cao hoặc xử lý liên tục các tài liệu dài, khoản tiết kiệm từ việc mua GPU và chi phí năng lượng có thể rất đáng kể.
Lợi thế về Bộ nhớ và Suy luận
Pulsar 16B đạt được mức giảm đáng kể về bộ nhớ trọng số mô hình trên tất cả các độ chính xác được hỗ trợ — BF16, FP8 và NVFP4 — so với mô hình gốc Nemotron-3-Nano-30B-A3B. Việc nén, đạt được nhờ công nghệ CompactifAI của Multiverse Computing kết hợp với các thư viện Model Optimizer và Megatron Bridge của Nvidia, không yêu cầu đào tạo lại từ đầu. Thay vào đó, công ty đã xác định và loại bỏ sự dư thừa toán học trong mạng đã được huấn luyện trong khi vẫn bảo toàn các hành vi suy luận đã học trong quá trình đào tạo.
Hiệu suất ngữ cảnh dài, thường là yếu tố đầu tiên bị ảnh hưởng khi nén mạnh, vẫn được giữ nguyên. Khả năng truy xuất "cây kim trong đống cỏ" hầu như hoàn hảo ở cả hai phía của mốc 100.000 token, và Pulsar 16B bám sát mô hình gốc chưa nén trên các tác vụ RULER khó hơn ở độ dài ngữ cảnh mở rộng, theo đánh giá của Multiverse Computing trên LongBench, AA-LCR, bộ RULER và các biến thể NIAH.
Tác động Cạnh tranh
Việc phát hành này gây áp lực lên các nhà phát triển mô hình nguồn mở khác — bao gồm cả những người đứng sau gpt-oss-20B và các kiến trúc tầm trung tương tự — trong việc chứng minh các mức tăng hiệu quả tương đương. Đối với Nvidia, sự hợp tác này củng cố giá trị của phần cứng Blackwell được tối ưu hóa cho suy luận: một mô hình chạy nhanh hơn 43% trên cùng một GPU tạo ra trường hợp hoàn vốn đầu tư mạnh mẽ hơn cho các khách hàng doanh nghiệp đang đánh giá hạ tầng của Nvidia. Multiverse Computing, thành viên của chương trình Inception của Nvidia, phục vụ hơn 100 khách hàng toàn cầu bao gồm Iberdrola, Bosch và Ngân hàng Canada, định vị công ty để nắm bắt nhu cầu từ các ngành được quản lý đang tìm kiếm các triển khai AI có chủ quyền, nơi dữ liệu không bao giờ rời khỏi hạ tầng tại chỗ.
Pulsar 16B có sẵn trên Hugging Face theo giấy phép Apache 2.0. Mô hình được thiết kế cho các thiết lập một nút, môi trường tại chỗ và các hệ thống nhạy cảm với độ trễ, nơi chi phí của khả năng suy luận đẳng cấp tiên phong trước đây là rào cản.
Bài viết này chỉ mang tính chất tham khảo và không cấu thành lời khuyên đầu tư.