NVIDIA 的 “Data In Place” 概念核心,可用一句话概括:

数据尽量留在原地完成 AI 处理,从而减少 ETL、复制、搬运、复制、搬运、重建索引和冷热迁移。

这是 NVIDIA 在 AI Infra 上一以贯之的长期路线:

  • GPU 不再只是算子的执行器。
  • GPU 开始直接参与数据访问。
  • 数据系统开始围绕 GPU memory fabric 重构。
  • “CPU 中转”逐渐被消解。
  • 传统的“存储 → CPU → 内存 → CPU → GPU”链路被显著压缩。

在这个方向上,NVIDIA 内部对应着几项关键技术:

技术作用
GPUDirect Storage存储可直接访问 GPU Memory
GPUDirect RDMA网络 / NIC 可直接访问 GPU
Magnum IOGPU 中心的 IO 栈
BlueField DPU将数据路径从 CPU 剥离
Spectrum-XAI 网络 Fabric
CMX / STXAI 原生存储架构
AI Data Platform面向企业 AI 的 Data-In-Place 平台

一、什么是 Data In Place

传统数据链路:

Storage
  ↓
CPU Memory
  ↓
CPU ETL
  ↓
GPU

NVIDIA 希望达成的链路:

Storage / Object Store / KV Cache
        ↓
    GPU Direct Access
        ↓
       GPU

这意味着:

  • 数据不搬迁。
  • 不提前构建大规模数据仓库。
  • 不做多份 AI 专用的副本。
  • AI 直接在原始位置消费数据。

这就是 Data In Place

其本质是:

“计算向数据移动”(Compute moves to data)
而非:“数据向计算移动”(Data moves to compute)

这实际上是 HPC 思维进入 AI Infra 的结果。


二、为什么 NVIDIA 极度重视这个方向

原因很简单:GPU 已经越来越“饿”。

在大模型时代,瓶颈发生了三次迁移:

阶段瓶颈
2018 前GPU 算力不足
2022 前GPU 数量不足
2024 后Data Feeding 不足

许多 GPU 利用率低,并非因为算不动,而是因为:

  • 数据加载太慢。
  • KV Cache 调度太慢。
  • 数据复制过多。
  • CPU 成为了 IO 中转的瓶颈。

NVIDIA 官方明确指出:

GPUDirect Storage 可以避免 CPU bounce buffer。

即:

传统:Storage → CPU RAM → GPU
优化后:Storage → GPU

三、Data In Place 的核心架构变化

3.1 CPU 从“数据控制中心”退化

过去,CPU 承担:

CPU:
- 文件系统
- Cache
- ETL
- 调度
- 网络协议

未来,CPU 的角色转向更多的编排(orchestration),而核心数据路径交由:

GPU + DPU:
- 直接访问数据
- 直接管理 KV Cache
- 直接做向量 / 图检索

3.2 Storage 不再只是冷数据仓库

AI 时代对存储的新要求:

  • 高并发随机读
  • Token streaming
  • KV cache 支持
  • 向量访问
  • Metadata graph 支持

传统 NAS 或对象存储已不足以胜任。新方向涌现:

新方向特征
GPU-aware storage能理解 GPU IO
KV-native storage面向推理 cache
AI file system针对 AI workload 优化
State storageAgent 长状态
Semantic storage语义索引内建

3.3 “数据层”正在成为 AI Infra 的控制点

NVIDIA 在隐含地推动:

AI Infra Control Point = State + Data Runtime

——而非模型。因为:

  • 模型越来越商品化。
  • GPU 逐渐标准化。
  • Agent 框架的切换成本在下降。

但以下要素的重要性与日俱增:

  • 数据路径
  • KV cache
  • State persistence
  • Context runtime

四、NVIDIA 官方技术体系

4.1 GPUDirect Storage

这是 Data In Place 最核心的技术。

官方定义:

Storage 可以直接 DMA 到 GPU memory。

架构:

NVMe / NVMe-oF
      ↓
     DMA
      ↓
GPU Memory

收益:

指标提升
带宽2x–8x
延迟大幅下降
CPU 占用明显下降

4.2 Magnum IO

这是 NVIDIA 的 GPU 原生 IO 软件栈。作用包括 GPUDirect、RDMA、NCCL 和 GPU IO 编排。目标是把整个 IO 栈 GPU 化。

4.3 BlueField DPU

BlueField 的意义常被低估。它本质上是一个 Storage/Data Plane Processor,负责:

  • NVMe 管理
  • RDMA
  • 安全
  • 网络虚拟化
  • KV Cache 传输

其核心是将数据平面的控制权从 CPU 剥离。

4.4 STX / CMX

这是 2026 年 GTC 上一个非常重要的新方向。NVIDIA 开始明确:Agentic AI 的瓶颈在于 KV Cache 和 State IO。

STX 的本质是:

GPU-centric Storage Fabric

特点:

  • RDMA
  • NVMe 编排
  • KV Cache 卸载
  • DPU 管理的存储

这已经非常接近“State System”的概念。


五、符合 Data In Place 的代表厂商与产品

第一类:GPU 原生文件系统

VAST Data

NVIDIA 生态中最核心的玩家之一。

能力说明
Shared-everything全局命名空间
NVMe + SCM极低延迟
GPU Direct深度集成
Vector + DB开始融合数据语义
Event-driven实时数据流

VAST 的关键点在于:它已经不只是存储,它正在演变为 AI Data Runtime。这也是 NVIDIA 极其重视它的原因。

WEKA

特点:

  • 并行文件系统
  • GPU 高吞吐
  • 低延迟 metadata
  • 面向训练和推理

WEKA 更偏向 高性能 AI 文件系统

DDN

HPC 老玩家,优势在于:

  • 超大规模并行 IO
  • 超高吞吐
  • 与 DGX 深度合作

DDN 的定位是 HPC 到 AI 的存储桥梁

第二类:对象存储的 AI 化

Cloudian

重要原因:官方宣布支持 NVIDIA GPUDirect for Object Storage。

意义巨大——这表明对象存储也开始直接喂给 GPU。对象存储正从冷归档层转变为 AI serving 层

MinIO

方向非常接近,特点:

  • S3 原生
  • AI pipeline 集成
  • 高并发对象访问
  • K8s 原生

虽然 NVIDIA 官方绑定不如 VAST 深,但 MinIO 非常契合 Data-in-Place 的对象运行时理念。

第三类:DPU / Data Plane

NVIDIA BlueField

BlueField 本身就是一个 Data Plane OS,未来将越来越像 存储 Hypervisor

Pensando(AMD 收购)

方向类似:数据路径卸载、智能 NIC、存储加速。

第四类:Lakehouse / HTAP 方向

这些公司更偏向逻辑层。

Databricks

Lakehouse 的本质是减少 ETL,是 Data In Place 的逻辑版本。特点:多引擎共享数据、不复制数据、AI 直接在湖上运行。

Snowflake

核心理念:一份数据(One Copy Data)。与 NVIDIA 的物理层路线不同,但思想一致——减少数据移动。

第五类:Agent / State-Oriented 新方向

这是未来最大的增量。

Scality

已经开始探讨 AI 正在消灭传统存储金字塔。核心原因:KV Cache 和 Context 永远不冷。这是一个非常关键的趋势。

NVIDIA STX / CMX

未来很可能演变为 State Fabric,而非传统的存储系统。


七、总结对 Data In Place 的理解

简单理解为“GPU 直连存储”过于浅显,真正的变化在于:

AI 时代,“数据”正在从静态资源变成动态状态。

因此:

旧时代新时代
文件State
ETLStreaming
冷热分层实时活跃
CPU 编排GPU / DPU 编排
数据仓库Context Runtime
数据库State System

NVIDIA 的路线,本质上是在推动:

  • 存储 → 运行时
  • 数据 → 状态

这将是未来五年 AI Infra 最重大的结构性迁移之一。

标签:infra, ai

你的评论