Pulsar 16B iguala el razonamiento de clase 30B con la mitad de parámetros

El Pulsar 16B de código abierto de Multiverse Computing ofrece rendimiento de razonamiento de vanguardia con aproximadamente la mitad de parámetros que modelos comparables, validado en la infraestructura acelerada de Nvidia.

El Pulsar 16B de Multiverse Computing iguala el rendimiento de razonamiento de modelos de 30 mil millones de parámetros con solo 16.150 millones de parámetros totales y 3.100 millones activos, reduciendo la huella computacional a casi la mitad mientras mantiene puntuaciones de referencia en tareas de matemáticas, ciencia y programación.

"Ejecutar IA avanzada localmente ha requerido históricamente un compromiso entre el tamaño del modelo o el rendimiento", dijo Enrique Lizaso, cofundador y director ejecutivo de Multiverse Computing. "Lo que demostramos con Pulsar 16B es que el razonamiento de vanguardia ahora puede implementarse sin la sobrecarga de la infraestructura a escala de nube, con una huella que las empresas pueden ejecutar y escalar de manera económica".

Construido sobre una versión comprimida de Nemotron 3 Nano de Nvidia — una arquitectura híbrida Mamba2-Transformer con Mixture-of-Experts — Pulsar 16B obtiene 87.22 en el punto de referencia de razonamiento matemático AIME 2025, a una décima de punto del modelo base sin comprimir de 31.600 millones de parámetros y 15 puntos por delante de gpt-oss-20B. En GPQA-Diamond, un punto de referencia científico a nivel de doctorado, obtiene 71.41, igualando al modelo sin comprimir y superando los 58.88 de gpt-oss-20B. El modelo también supera a gpt-oss-20B por 14 puntos en seguimiento de instrucciones y 11 puntos en llamada a funciones.

La ganancia en eficiencia se traduce directamente en menores costos de implementación. En una GPU Nvidia Blackwell manejando 32 solicitudes concurrentes, Pulsar 16B en precisión FP8 entrega 4,808 tokens por segundo de rendimiento del sistema, un aumento del 43% frente a los 3,363 tokens por segundo del modelo base, mientras reduce el tiempo hasta el primer token a 1.24 segundos desde 2.18 segundos. Para empresas que ejecutan flujos de trabajo agénticos de alta concurrencia o procesan documentos largos de forma continua, los ahorros en adquisición de GPUs y costos energéticos podrían ser sustanciales.

Ventajas de Memoria e Inferencia

Pulsar 16B logra reducciones significativas en la memoria de pesos del modelo en todas las precisiones compatibles — BF16, FP8 y NVFP4 — en comparación con el modelo base Nemotron-3-Nano-30B-A3B. La compresión, lograda utilizando la tecnología CompactifAI de Multiverse Computing en combinación con las bibliotecas Model Optimizer y Megatron Bridge de Nvidia, no requirió reentrenamiento desde cero. En su lugar, la empresa identificó y eliminó redundancia matemática dentro de la red entrenada mientras preservaba los comportamientos de razonamiento aprendidos durante el entrenamiento.

El rendimiento en contexto largo, a menudo la primera víctima de una compresión agresiva, permanece intacto. La recuperación de tipo "aguja en un pajar" se mantiene esencialmente perfecta en ambos lados de la marca de 100,000 tokens, y Pulsar 16B sigue de cerca al modelo base sin comprimir en tareas RULER más difíciles con longitudes de contexto extendidas, según las evaluaciones de Multiverse Computing en LongBench, AA-LCR, el conjunto RULER y variantes de NIAH.

Implicaciones Competitivas

El lanzamiento presiona a otros desarrolladores de modelos de código abierto — incluidos aquellos detrás de gpt-oss-20B y arquitecturas medianas similares — a demostrar ganancias de eficiencia comparables. Para Nvidia, la colaboración refuerza el valor de su hardware Blackwell optimizado para inferencia: un modelo que funciona un 43% más rápido en la misma GPU crea un caso de retorno de inversión más sólido para clientes empresariales que evalúan la infraestructura de Nvidia. Multiverse Computing, miembro del programa Inception de Nvidia, atiende a más de 100 clientes globales, incluidos Iberdrola, Bosch y el Banco de Canadá, posicionándose para capturar la demanda de industrias reguladas que buscan implementaciones de IA soberana donde los datos nunca abandonan la infraestructura local.

Pulsar 16B está disponible en Hugging Face bajo la licencia Apache 2.0. El modelo está diseñado para configuraciones de un solo nodo, entornos locales y sistemas sensibles a la latencia donde el costo del razonamiento de clase frontier había sido previamente prohibitivo.

Este artículo es únicamente con fines informativos y no constituye asesoramiento de inversión.