物理 AI
开发推动物理 AI 发展的世界基础模型。
概览
NVIDIA Cosmos™ 是一个整合前沿生成式世界基础模型 (WFM) 先进分词器、护栏以及用于加速数据处理和管理的高效工作流的集成平台。该技术为世界模型训练提供支持,并加速智能汽车(AV) 和机器人的物理 AI 开发。
Cosmos 为开发者提供开放、易于访问的高性能基础世界模型、数据工作流,以及用于机器人和智能汽车应用生成合成数据并进行后训练的工具。
多模态模型借助 2000 万小时的机器人和驾驶数据进行预训练,以生成基于物理的世界状态。
Cosmos WFM、护栏和标记器均根据 NVIDIA 开放式模型许可证获得许可,供所有物理 AI 开发者访问。
通过专为定制化物理 AI 基础模型开发设计的模型与工具,轻松构建数据管理、增强、评估和模拟的持续迭代流程。
使用 NIM 微服务快速部署 Cosmos 世界基础模型,并扩展代理式 AI 和合成数据生成工作流。
模型
一系列预训练多模态模型,开发者可以开箱即用,用于世界生成和推理,或进行后训练以开发专用的物理 AI 模型。
在未来世界状态预测中提供出色性能,通过多模态输入生成长达 30 秒的连续视频,且在视频的生成速度、逼真度和对提示词依从性方便表现出色。
Cosmos 为开发者提供开放式的高性能数据管护工作流、标记器、训练框架和训练后脚本。凭借这些,开发者能快速、轻松地构建各类专用世界模型,诸如用于具身 AI 的策略模型和视觉语言动作 (VLA) 模型等。
硬件
Cosmos WFM 已针对 NVIDIA 最新的 Blackwell 架构 GPU 进行了进行全面优化。
对于运行 Cosmos 世界基础模型等大规模自定义多模态模型的企业,NVIDIA Blackwell 架构 GPU 可为数十亿多个参数的工作负载提供行业领先的速度和可扩展性。访问 NVIDIA DGX Cloud,开发新一代 AI 超级集群和大规模物理 AI 应用。
物理 AI 开发者可以利用搭载 NVIDIA RTX PRO Blackwell GPU 和 DGX Cloud 的服务器和工作站平台,使用 NVIDIA Omniverse 和 Cosmos 加速合成数据生成。这种组合可让您快速生成基于物理的良好合成数据。这有助于先进的机器人、智能汽车和仿真工作流程。
加速下游基础模型开发,通过合成数据生成和后训练推动视觉 AI 和具身 AI 的发展。
策略模型为物理 AI 系统的行为提供指导,确保系统安全运行,并符合其目标。 开发者可将 Cosmos Predict 或 Cosmos Reason 后训练到策略模型中,以生成动作,从而节省手动策略训练的成本、时间和数据需求。
Cosmos WFM 通过视频输出模拟现实世界的动作,并基于 Omniverse 真实物理模拟来提高准确性,从而加速策略评估进程。开发者可以使用 Cosmos Reason 构建视觉语言动作 (VLA) 模型,并将其部署至智能决策评估体系中。这种仿真循环机制能够降低现实世界测试所需的成本、时间和风险,同时提高策略的精度。
Cosmos Predict 可通过后训练生成多个视图或不同的摄像头视角输出,从而实现高保真、时间一致的基于物理性质的训练数据,其中包含来自单个文本、图像或视频输入的 360° 视图。
这一技术提高了模型的稳定性,减少了边缘案例故障率,并加速了自主机器的开发周期,从而降低部署成本,实现更快速、更安全的部署。
Hugging Face 和 GitHub 上提供 Cosmos 模型、护栏和标记器,并提供资源来解决训练物理 AI 模型时的数据稀缺问题。我们致力于推动 Cosmos 向前发展——透明、开放,并面向所有人。
来自机器人、智能汽车和视觉 AI 行业的模型开发者正在使用 Cosmos 来加速物理 AI 的开发。
从文档入手。Cosmos 世界基础模型在 Hugging Face 上公开提供,并可在 GitHub 上获取推理和后训练脚本。开发者还可以在 GitHub 和 Hugging Face 上的 /NVIDIA/cosmos-tokenizer 下载 Cosmos tokenizer。
Cosmos 基础世界模型遵循 NVIDIA 开放模型许可协议,对所有人开放。
PyTorch 脚本可供所有 Cosmos 模型用于后训练。请阅读文档,获取有关后训练的分步指南。
可以,您可以利用 Cosmos 使用您首选的基础模型或模型架构从头开始构建。您可以首先使用 NeMo Curator 进行视频数据预处理。 然后使用 Cosmos tokenizer 对数据进行压缩和解码。处理完数据后,您可以使用 NVIDIA NeMo 训练或微调模型。
借助 NVIDIA NIM™ 微服务,您可以轻松将物理 AI 模型集成到云、数据中心和工作站的应用中。
您还可以使用 NVIDIA DGX Cloud 训练 AI 模型,并将其大规模部署到任何地方。
这三个模型都是具有不同角色的世界基础模型:
Cosmos Reason 还可以基于一个起始视频,为 Cosmos Predict 生成全新且多样的文本提示,或对 Predict 和 Transfer 生成的合成数据进行评估和批判。
Omniverse 使用不同的生成式 API、SDK 和 NVIDIA RTX 渲染技术,创建了现实世界任务的逼真 3D 仿真。
开发者可以将 Omniverse 仿真作为指令视频输入到 Cosmos Transfer 模型,以生成可控的逼真合成数据。
Omniverse 共同提供训练前后仿真环境,而 Cosmos 提供基础模型来生成视频数据并训练物理 AI 模型。
详细了解 NVIDIA Omniverse。