物理 AI

NVIDIA Cosmos

开发推动物理 AI 发展的世界基础模型。

开始探索上手开发

入门指南

概览

NVIDIA Cosmos 是什么？

NVIDIA Cosmos™ 是一个整合前沿生成式世界基础模型 (WFM) 先进分词器、护栏以及用于加速数据处理和管理的高效工作流的集成平台。该技术为世界模型训练提供支持，并加速智能汽车(AV) 和机器人的物理 AI 开发。

NVIDIA 以云端至机器人计算平台驱动人形机器人物理 AI 革新

全新 NVIDIA Isaac™ GR00T 开放模型与 GR00T-Dreams blueprint 合成数据生成正在推动人形机器人推理与行为进化

阅读新闻稿

利用 NVIDIA Cosmos 扩展合成数据和物理 AI 推理

了解最新的 NVIDIA Cosmos 世界基础模型用于高级推理和可控合成数据生成，为新一代 AI 驱动式人形机器人和智能汽车提供助力。

阅读技术博客

优势

加速物理 AI 的虚拟世界生成

Cosmos 为开发者提供开放、易于访问的高性能基础世界模型、数据工作流，以及用于机器人和智能汽车应用生成合成数据并进行后训练的工具。

物理优先数据

多模态模型借助 2000 万小时的机器人和驾驶数据进行预训练，以生成基于物理的世界状态。

开放性

Cosmos WFM、护栏和标记器均根据 NVIDIA 开放式模型许可证获得许可，供所有物理 AI 开发者访问。

不断改进智能汽车系统

通过专为定制化物理 AI 基础模型开发设计的模型与工具，轻松构建数据管理、增强、评估和模拟的持续迭代流程。

快速扩展

使用 NIM 微服务快速部署 Cosmos 世界基础模型，并扩展代理式 AI 和合成数据生成工作流。

模型

Cosmos 基础世界模型

一系列预训练多模态模型，开发者可以开箱即用，用于世界生成和推理，或进行后训练以开发专用的物理 AI 模型。

Cosmos 预测

在未来世界状态预测中提供出色性能，通过多模态输入生成长达 30 秒的连续视频，且在视频的生成速度、逼真度和对提示词依从性方便表现出色。

Cosmos Transfer

多控制模型利用真实数据和结构化输入，在不同环境和光照条件下生成世界状态。

使用 NVIDIA Omniverse™ 的真实场景模拟，加速可控合成数据的生成。

Cosmos Reason

这是一款具备完全可定制的多模态推理模型，基于对空间和时间的理解构建，用于规划响应。

使用视觉语言模型微调和强化学习进行训练，以实现思想链推理。

工具

后训练 Cosmos 基础世界模型

Cosmos 为开发者提供开放式的高性能数据管护工作流、标记器、训练框架和训练后脚本。凭借这些，开发者能快速、轻松地构建各类专用世界模型，诸如用于具身 AI 的策略模型和视觉语言动作 (VLA) 模型等。

高效地对视频数据进行标记化

使用 Cosmos 标记器以更高的压缩率生成图像或视频标记，以实现可扩展、稳健且高效的大世界模型的开发。选择高分辨率或低分辨率变体，将 Cosmos WFM 后训练为专用 AI 模型。

了解更多

加速数据管护

借助 CUDA-X™ 的 NVIDIA NeMo™ Curator 工作流和用于处理超过 100PB 数据的 NVIDIA AI 加速工具，将数据处理速度提高 20 倍。它提供开箱即用的优化，可更大限度地降低总体拥有成本 (TCO) ，并缩短上市时间。

了解更多

后训练脚本

使用 PyTorch 脚本为下游物理 AI 用例自定义 Cosmos WFM。后训练模型以生成动作或文本，或修改长度、精度、视图和摄像头控制，以匹配现实世界的场景和要求。

了解详情

硬件

借助 NVIDIA AI 实现卓越性能

Cosmos WFM 已针对 NVIDIA 最新的 Blackwell 架构 GPU 进行了进行全面优化。

在 NVIDIA Blackwell 上运行

对于运行 Cosmos 世界基础模型等大规模自定义多模态模型的企业，NVIDIA Blackwell 架构 GPU 可为数十亿多个参数的工作负载提供行业领先的速度和可扩展性。访问 NVIDIA DGX Cloud，开发新一代 AI 超级集群和大规模物理 AI 应用。

物理 AI 开发者可以利用搭载 NVIDIA RTX PRO Blackwell GPU 和 DGX Cloud 的服务器和工作站平台，使用 NVIDIA Omniverse 和 Cosmos 加速合成数据生成。这种组合可让您快速生成基于物理的良好合成数据。这有助于先进的机器人、智能汽车和仿真工作流程。

用例

开发者如何使用 NVIDIA Cosmos

加速下游基础模型开发，通过合成数据生成和后训练推动视觉 AI 和具身 AI 的发展。

合成数据生成 (SDG)
策略模型初始化
策略模型评估
多视图生成

合成数据生成 (SDG)

Omniverse 可创建逼真的 3D 场景，用于 Cosmos Transfer 的输入，Cosmos Transfer 将这些场景扩展至各种逼真的环境和光照条件中。此过程会生成可扩展的增强型数据，从而消除数据瓶颈，实现更高效的基础模型训练。

Cosmos Reason 能够评估合成数据，删除不符合后训练或评估要求的输出结果。它还会生成标注信息，为数据添加上下文并帮助组织数据，从而加速视觉 AI 和具身 AI 的基础模型开发。

了解详情

策略模型初始化

策略模型为物理 AI 系统的行为提供指导，确保系统安全运行，并符合其目标。开发者可将 Cosmos Predict 或 Cosmos Reason 后训练到策略模型中，以生成动作，从而节省手动策略训练的成本、时间和数据需求。

了解更多

策略模型评估

Cosmos WFM 通过视频输出模拟现实世界的动作，并基于 Omniverse 真实物理模拟来提高准确性，从而加速策略评估进程。开发者可以使用 Cosmos Reason 构建视觉语言动作 (VLA) 模型，并将其部署至智能决策评估体系中。这种仿真循环机制能够降低现实世界测试所需的成本、时间和风险，同时提高策略的精度。

了解更多