英伟达发布Cosmos 3，首个开源物理AI全能模型

英伟达Cosmos 3标志着这家芯片制造商正式进入机器人基础AI模型领域，将视觉推理与多模态生成能力合为一体。

英伟达Cosmos 3是首个完全开源的物理AI全能模型，推动公司从GPU硬件迈向基础模型领域。该模型采用混合变换器架构，专为世界模拟与机器人技术而设计。

"Cosmos 3是登上排行榜榜首的开源物理AI基础模型，基于突破性的混合变换器架构构建，统一了视觉、语言和行动能力，"该公司在6月1日的公告中表示。

该模型支持原生视觉推理，可生成文本、图像、视频、环境音和行动输出，用于合成数据创建和物理AI策略开发。英伟达还发布了Alpamayo 2 Super——一个拥有320亿参数的开源推理视觉-语言-行动模型，同时推出了一套涵盖其Omniverse、Cosmos和Metropolis平台的开源物理AI智能体技能。

向基础模型领域的扩展，使英伟达得以在其数据中心GPU业务之外捕获价值。该业务在2025财年创造了620亿美元的收入。物理AI——涵盖自动驾驶汽车、仓储机器人和工业自动化——代表着一个全新的可触及市场。如果Cosmos成为机器人开发的标准平台，这一市场足以支撑该公司35倍的远期市盈率。

支撑Cosmos 3的混合变换器架构，在技术上标志着英伟达与此前AI模型的重大分野。与按顺序处理文本的大型语言模型不同，Cosmos 3能够同时处理视觉、语言和行动数据，从而模拟物理世界中的交互——这是在无需真实世界试错的情况下训练机器人和自主系统所需的能力。

这一开源发布策略与Meta在其Llama系列语言模型上的做法如出一辙，将Cosmos 3定位为机器人研发的潜在标准。通过免费提供该模型，英伟达旨在建立一个依赖其硬件进行训练和推理的开发者与企业网络，从而在其GPU业务周围构筑一道软件护城河。

竞争格局远不止英伟达直接的芯片对手。特斯拉正在开发用于自动驾驶和人形机器人的自有AI模型，而Google DeepMind已通过其MuJoCo和Gemini平台在物理世界模拟领域投入重金。亚马逊则通过其机器人部门，在仓储自动化领域既是潜在客户也是竞争对手。

对于投资者而言，关键在于Cosmos 3能否将网络效应转化为GPU需求。每一次物理AI训练运行都需要数千块英伟达GPU——单次机器人模型训练会话可能耗费1万至2.5万块H100等效GPU，并持续数周。如果Cosmos 3成为物理AI开发的默认平台，它可能推动数据中心资本支出进入新一轮周期，超越当前大型语言模型的基建热潮。

在过去12个月中，受微软、亚马逊和谷歌AI基础设施支出的推动，英伟达股价已上涨140%。Cosmos 3的发布将叙事从数据中心GPU延伸至机器人和物理AI领域，ARK Invest估计，到2040年该市场全球收入可达24万亿美元。

本文仅供信息参考，不构成投资建议。