NVIDIA Magnum IO 整合存储 IO、网络 IO、网络计算和 IO 管理,简化并加速多 GPU、多节点系统的数据传输、访问和管理。Magnum IO 支持 NVIDIA CUDA-X™ 库,并充分利用各类 NVIDIA GPU 和 NVIDIA 网络硬件拓扑来实现更高的吞吐量和更低的延迟。
NVIDIA Magnum IO
数据中心 IO 加速平台
数据中心 IO 加速平台
很多公司都在完善自己的数据,向智能生产商迈进。加速计算将计算速度提高了百万倍,使数据中心逐步演变为 AI 工厂。然而,加速计算需要加速 IO。NVIDIA Magnum IO™ 架构为并行智能数据中心 IO 而设计。该架构最大限度地提升存储、网络、多节点和多GPU通讯性能,为大型语言模型、推荐系统、成像、仿真和科学研究等全球重要的应用优化实现加速。
NVIDIA Magnum IO 整合存储 IO、网络 IO、网络计算和 IO 管理,简化并加速多 GPU、多节点系统的数据传输、访问和管理。Magnum IO 支持 NVIDIA CUDA-X™ 库,并充分利用各类 NVIDIA GPU 和 NVIDIA 网络硬件拓扑来实现更高的吞吐量和更低的延迟。
在多 GPU、多节点系统中,运行缓慢的 CPU 单线程性能严重影响了从本地或远程存储设备访问数据的效率。借助存储 IO 加速,GPU 可跳过 CPU 和系统内存,通过八个 200Gb/s 的网卡直接访问远程存储,实现高达 1.6Tb/s 的裸存储带宽。
相关技术包括:
NVIDIA NVLink®、NVIDIA Quantum InfiniBand、以太网和基于 RDMA 的网络 IO 加速可显著降低 IO 开销,跳过 CPU,并实现到 GPU 的线速直接数据传输。
相关技术包括:
网络计算可实现网络内数据处理,减少了数据在网络中的传输次数并降低延迟。数据处理器 (DPU) 引入了采用软件定义和网络硬件加速的计算技术,包含预配置的数据处理引擎和可编程引擎。
相关技术包括:
为了实现计算、网络和存储等各类 IO 优化,用户需要遥测技术的深度支持,以及先进的故障排除技术。Magnum IO 管理平台可助力科研和企业数据中心操作人员对现代数据中心架构进行高效预配、监控与管理以及预防性维护。
相关技术包括:
NVIDIA Magnum IO 可与 NVIDIA 高性能计算 (HPC) 和 AI 库交互,为 AI 和科学可视化等领域的各类用例加速 IO。
目前,数据科学和机器学习 (ML) 是计算能力需求巨大的领域。预测式机器学习模型准确性的每一次微小提升,都能带来数十亿美元的价值回报。
为提升准确性,RAPIDS™ 加速器库基于 UCX 构建了内置 Apache Spark Shuffle,可配置使用 RDMA 实现 GPU 对 GPU 的高效通信。通过整合 NVIDIA 网络、NVIDIA Magnum IO 软件、GPU 加速的 Spark 3.0 和 NVIDIA RAPIDS™ ,NVIDIA 数据中心平台具有独特的优势,能够以出色的性能和效率加速大规模工作负载。
GPUDirect Storage (GDS) 已与 RAPIDS 集成,为 ORC、Parquet、CSV 和 Avro reader等加速。在大规模工作流中使用 GDS, Parquet 文件访问使用 RAPIDS CuIO 实现了高达 4.5 倍的性能提升。
Adobe 借助 Spark 3.0, 在 Databricks 上将模型训练速度提升了七倍,同时节省了 90% 的成本
为点燃新一代发现的火花,科学家们希望通过仿真,更好地理解复杂分子结构以支持药物研发,理解物理现象以寻找新能源,理解大气数据以更好地预测极端天气状况。领先的仿真和应用利用 NVIDIA Magnum IO 来加速探索进程。Magnum IO 提供硬件级加速引擎和智能卸载,例如 RDMA、NVIDIA GPUDirect 和 NVIDIA SHARP 功能,同时支持超高带宽、超低延迟的 NVIDIA InfiniBand 和 NVIDIA NVLink 网络。
在多租户环境中,用户应用可能并不知晓相邻应用流量的无差别干扰。在新一代的 NVIDIA Quantum-2 InfiniBand 平台上, Magnum IO 带来一个新的改进功能,用以减轻流量干扰对用户性能的负面影响。这可以实现比较理想的性能,并做到在任何规模下,都能高效部署 HPC 和机器学习应用。
Magnum IO 库和 HPC 应用
用 NCCL 替换 MPI 可以显著提升 VASP 的性能。UCX 可以加速 VASP、Chroma、MIA-AI、Fun3d、CP2K 和 Spec-HPC2021 等科学计算应用,从而缩短运行时间。
NVIDIA HPC-X 可以提高 CPU 可用性、应用可扩展性和系统效率,从而提高应用性能,并已经获得多种 HPC ISV 的支持。NCCL、UCX 和 HPC-X 均为 HPC-SDK 的组成部分。
快速傅里叶变换 (FFT) 广泛应用于分子动力学、信号处理、计算流体动力学 (CFD)、无线多媒体和 ML 应用等各个领域。在 NVIDIA Shared Memory Library (NVSHMEM)™ 的助力下,cuFFTMp 可独立于 MPI 实现,实现了极致性能。这一点尤为重要,因为不同 MPI 的性能可能会有很大差异。
定性数据分析 (QUDA) 格点量子色动力学库可以使用 NVSHMEM 进行通信,以减少 CPU 和 GPU 同步产生的开销并改善计算和通信的重叠度,从而减少延迟并提高扩展性。
新兴的百亿亿次级 (Exascale) HPC 和万亿级参数的 AI 模型,比如超越人类的对话式 AI 模型,即使采用超级计算机,也需要数月时间才能完成训练。为了加快业务速度,在几天内完成训练,需要在服务器集群中的每个 GPU 之间建立高速、无缝的通信,以便集群能够扩展性能。将 NVIDIA NVLink、NVIDIA NVSwitch、NVIDIA Magnum IO 库和跨服务器的强扩展相结合,可在混合专家模型 (MoE) 上将 AI 训练速度提升高达 9 倍,从而使研究人员能够以业务速度训练大型模型。
Magnum IO 库和深度学习集成
NCCL 和其他 Magnum IO 库透明地利用最新的 NVIDIA H100 GPU、NVLink、NVSwitch和 InfiniBand 网络,显著加速深度学习工作负载,在推荐系统和大型语言模型训练方面效果尤为突出。
NCCL 的优势包括更快地获得模型训练准确性,在分布式环境中的服务器之间实现近 100% 的通信带宽。
借助 Numpy reader 运算符,开发者可在 Data Loading Library (DALI) 中使用 Magnum IO GPUDirect Storage (GDS)。与基准 Numpy 相比,DALI 结合 GDS 可将深度学习推理的性能提升高达 7.2 倍。
推动研究人员利用强大的性能和良好的可扩展性,不断地在 AI 领域取得突破性进展。将 NVIDIA Quantum-2 InfiniBand 网络、 NVLink、NVSwitch 和 Magnum IO 软件堆栈相结合,可为数百乃至数千个同时运行的 GPU 提供开箱即用的可扩展性。
GPU 用于加速从直播画面到实时立体图像重建等一系列应用中的复杂而耗时的任务。
NVIDIA GPUDirect for Video 技术支持第三方硬件与 NVIDIA GPU 进行高效通信,并可大幅减少历来的延迟问题。借助 NVIDIA GPUDirect for Video 技术,IO 设备可以与 GPU 和 CPU 完全同步,从而尽可能缩短在设备驱动之间复制数据所耗用的时间周期。
GPUDirect Storage (GDS) 已经实现与 cuCIM 的集成,这是一个专注于生物医学成像的可扩展工具包,旨在为 N 维图像提供 GPU 加速的 IO、计算机视觉和图像处理基元。
在以下两个示例中,NVIDIA IndeX® 与 GDS 一起用于加速超大型数据集的可视化。
注册以接收 NVIDIA Magnum IO 新闻和动态消息。
实现 IO 直接传输到 GPU 显存,消除了往返 CPU 或系统内存的昂贵数据路径瓶颈。避免了通过系统内存额外拷贝带来的延迟开销,这对小数据传输影响更明显,并通过提供更大的操作独立性,解决 CPU 利用率瓶颈。
逻辑上将 NVMe over Fabrics (NVMe-oF) 等网络存储用作本地 NVMe 设备,可让主机操作系统/服务器虚拟化平台使用标准 NVMe 驱动访问远端存储,而不必使用远程网络存储协议。
基于开源技术的生产级通信框架,用于数据中心的高性能应用。该框架包含一个底层接口,可提供底层硬件支持的基本网络操作。软件包包括:MPI 和 SHMEM 库、UCX 通信库、NVIDIA SHARP、KNEM 和标准 MPI 基准。
在相互通信的处理器之间通过紧密同步,实现拓扑感知型通信原语。NCCL 可加速集合通信操作并缩短运行时墙上时间。NCCL 可与不同的 RAPID ML 组件、RAPIDS 分析框架工具包 (RAFT) 和 DASK-cuML 集成。cuML 是一套实现机器学习算法和数学原语函数的库。NCCL 还可与 PyTorch、NVIDIA Merlin™ HugeCTR、NVIDIA Nemo Megatron、NVIDIA Riva、TensorFlow 容器和 MXNET 容器等集成。
NVSHMEM 是一种编程模型,支持应用在分布式第 4 代 NVLink 扩展互连上发出细粒度访问,同时将其与计算重叠。这样一来可以显著加快分布式科学计算应用的速度,例如使用 NVSHMEM 的 cuFFT。
NVSHMEM 提供基于 OpenSHMEM 标准的编程接口,为分布于多个服务器的多个 GPU 显存中的数据构建全局地址空间。
UCX 是一个开源生产级通信框架,用于数据中心的高性能应用。该框架包含一个底层接口,可提供底层硬件支持的基本网络操作。还包含一个高层接口,用于构建 MPI、OpenSHMEM、PGAS、Spark 以及其他高性能和 DL 应用中使用的协议。
UCX 提供 GPU 加速的点对点通信以实现卓越性能,支持 GPU 计算元素之间的 NVLINK、PCIe、以太网或 InfiniBand 连接。
加速交换和数据包处理的众多功能集。ASAP2 可将数据操控和安全功能从 CPU 卸载至网络中,从而能够提升效率、加强控制,并实现与恶意应用的隔离。
通过对各种高级网络、存储和安全业务进行隔离、加速和卸载,BlueField DPU 可为云、数据中心或边缘计算等环境中的各种工作负载提供安全加速的基础设施。
减少 MPI 通信时间,改善计算和通信之间的重叠。NVIDIA Quantum InfiniBand 网卡将 MPI 消息处理从主机上卸载到网卡上,实现 MPI 消息的零拷贝。
提升 MPI、SHMEM、NCCL 和其他通信库中的数据归约与聚合算法的性能,方法是将这些算法从 GPU 或 CPU 卸载到网络交换设备或 DPU,这个过程同时消除了在 InfiniBand 和第 4 代 NVLink 端点之间多次发送数据的需求。SHARP 加速可将 NCCL 性能提升四倍,将 MPI 集合通信延迟性能提升七倍。SHARP 支持 UFM、HPC-X、NCCL 和大多数行业标准 MPI 分发包。
NVIDIA NetQ 是一种高度可扩展的现代网络运营工具集,可实时验证您的 NVIDIA® Cumulus® Linux 和 SONiC 网络,从而将全面可视化、故障排除和 DevOps 引入到现代数据中心网络中。
为数据中心的 InfiniBand 网络提供高级调试、监控、管理和高效预配等功能。借助 AI 助力的网络智能和分析,支持实时网络遥测。