AI Infra：NVIDIA “Data In Place” 范式展示了AI 数据基础设施的未来

NVIDIA 的 “Data In Place” 概念核心，可用一句话概括：

数据尽量留在原地完成 AI 处理，从而减少 ETL、复制、搬运、复制、搬运、重建索引和冷热迁移。

这是 NVIDIA 在 AI Infra 上一以贯之的长期路线：

GPU 不再只是算子的执行器。
GPU 开始直接参与数据访问。
数据系统开始围绕 GPU memory fabric 重构。
“CPU 中转”逐渐被消解。
传统的“存储 → CPU → 内存 → CPU → GPU”链路被显著压缩。

在这个方向上，NVIDIA 内部对应着几项关键技术：

技术	作用
GPUDirect Storage	存储可直接访问 GPU Memory
GPUDirect RDMA	网络 / NIC 可直接访问 GPU
Magnum IO	GPU 中心的 IO 栈
BlueField DPU	将数据路径从 CPU 剥离
Spectrum-X	AI 网络 Fabric
CMX / STX	AI 原生存储架构
AI Data Platform	面向企业 AI 的 Data-In-Place 平台

一、什么是 Data In Place

传统数据链路：

Storage
  ↓
CPU Memory
  ↓
CPU ETL
  ↓
GPU

NVIDIA 希望达成的链路：

Storage / Object Store / KV Cache
        ↓
    GPU Direct Access
        ↓
       GPU

这意味着：

数据不搬迁。
不提前构建大规模数据仓库。
不做多份 AI 专用的副本。
AI 直接在原始位置消费数据。

这就是 Data In Place。

其本质是：

“计算向数据移动”（Compute moves to data）
而非：“数据向计算移动”（Data moves to compute）

这实际上是 HPC 思维进入 AI Infra 的结果。

二、为什么 NVIDIA 极度重视这个方向

原因很简单：GPU 已经越来越“饿”。

在大模型时代，瓶颈发生了三次迁移：

阶段	瓶颈
2018 前	GPU 算力不足
2022 前	GPU 数量不足
2024 后	Data Feeding 不足

许多 GPU 利用率低，并非因为算不动，而是因为：

数据加载太慢。
KV Cache 调度太慢。
数据复制过多。
CPU 成为了 IO 中转的瓶颈。

NVIDIA 官方明确指出：

GPUDirect Storage 可以避免 CPU bounce buffer。

即：

传统：Storage → CPU RAM → GPU
优化后：Storage → GPU

三、Data In Place 的核心架构变化

3.1 CPU 从“数据控制中心”退化

过去，CPU 承担：

CPU:
- 文件系统
- Cache
- ETL
- 调度
- 网络协议

未来，CPU 的角色转向更多的编排（orchestration），而核心数据路径交由：

GPU + DPU:
- 直接访问数据
- 直接管理 KV Cache
- 直接做向量 / 图检索

3.2 Storage 不再只是冷数据仓库

AI 时代对存储的新要求：

高并发随机读
Token streaming
KV cache 支持
向量访问
Metadata graph 支持

传统 NAS 或对象存储已不足以胜任。新方向涌现：

新方向	特征
GPU-aware storage	能理解 GPU IO
KV-native storage	面向推理 cache
AI file system	针对 AI workload 优化
State storage	Agent 长状态
Semantic storage	语义索引内建

3.3 “数据层”正在成为 AI Infra 的控制点

NVIDIA 在隐含地推动：

AI Infra Control Point = State + Data Runtime

——而非模型。因为：

模型越来越商品化。
GPU 逐渐标准化。
Agent 框架的切换成本在下降。

但以下要素的重要性与日俱增：

数据路径
KV cache
State persistence
Context runtime

四、NVIDIA 官方技术体系

4.1 GPUDirect Storage

这是 Data In Place 最核心的技术。

官方定义：

Storage 可以直接 DMA 到 GPU memory。

架构：

NVMe / NVMe-oF
      ↓
     DMA
      ↓
GPU Memory

收益：

指标	提升
带宽	2x–8x
延迟	大幅下降
CPU 占用	明显下降

4.2 Magnum IO

这是 NVIDIA 的 GPU 原生 IO 软件栈。作用包括 GPUDirect、RDMA、NCCL 和 GPU IO 编排。目标是把整个 IO 栈 GPU 化。

4.3 BlueField DPU

BlueField 的意义常被低估。它本质上是一个 Storage/Data Plane Processor，负责：

NVMe 管理
RDMA
安全
网络虚拟化
KV Cache 传输

其核心是将数据平面的控制权从 CPU 剥离。

4.4 STX / CMX

这是 2026 年 GTC 上一个非常重要的新方向。NVIDIA 开始明确：Agentic AI 的瓶颈在于 KV Cache 和 State IO。

STX 的本质是：

GPU-centric Storage Fabric

特点：

RDMA
NVMe 编排
KV Cache 卸载
DPU 管理的存储

这已经非常接近“State System”的概念。

五、符合 Data In Place 的代表厂商与产品

第一类：GPU 原生文件系统

VAST Data

NVIDIA 生态中最核心的玩家之一。

能力	说明
Shared-everything	全局命名空间
NVMe + SCM	极低延迟
GPU Direct	深度集成
Vector + DB	开始融合数据语义
Event-driven	实时数据流

VAST 的关键点在于：它已经不只是存储，它正在演变为 AI Data Runtime。这也是 NVIDIA 极其重视它的原因。

WEKA

特点：

并行文件系统
GPU 高吞吐
低延迟 metadata
面向训练和推理

WEKA 更偏向 高性能 AI 文件系统。

DDN

HPC 老玩家，优势在于：

超大规模并行 IO
超高吞吐
与 DGX 深度合作

DDN 的定位是 HPC 到 AI 的存储桥梁。

第二类：对象存储的 AI 化

Cloudian

重要原因：官方宣布支持 NVIDIA GPUDirect for Object Storage。

意义巨大——这表明对象存储也开始直接喂给 GPU。对象存储正从冷归档层转变为 AI serving 层。

MinIO

方向非常接近，特点：

S3 原生
AI pipeline 集成
高并发对象访问
K8s 原生

虽然 NVIDIA 官方绑定不如 VAST 深，但 MinIO 非常契合 Data-in-Place 的对象运行时理念。

第三类：DPU / Data Plane

NVIDIA BlueField

BlueField 本身就是一个 Data Plane OS，未来将越来越像 存储 Hypervisor。

Pensando（AMD 收购）

方向类似：数据路径卸载、智能 NIC、存储加速。

第四类：Lakehouse / HTAP 方向

这些公司更偏向逻辑层。

Databricks

Lakehouse 的本质是减少 ETL，是 Data In Place 的逻辑版本。特点：多引擎共享数据、不复制数据、AI 直接在湖上运行。

Snowflake

核心理念：一份数据（One Copy Data）。与 NVIDIA 的物理层路线不同，但思想一致——减少数据移动。

第五类：Agent / State-Oriented 新方向

这是未来最大的增量。

Scality

已经开始探讨 AI 正在消灭传统存储金字塔。核心原因：KV Cache 和 Context 永远不冷。这是一个非常关键的趋势。

NVIDIA STX / CMX

未来很可能演变为 State Fabric，而非传统的存储系统。

七、总结对 Data In Place 的理解

简单理解为“GPU 直连存储”过于浅显，真正的变化在于：

AI 时代，“数据”正在从静态资源变成动态状态。

因此：

旧时代	新时代
文件	State
ETL	Streaming
冷热分层	实时活跃
CPU 编排	GPU / DPU 编排
数据仓库	Context Runtime
数据库	State System

NVIDIA 的路线，本质上是在推动：

存储 → 运行时
数据 → 状态

这将是未来五年 AI Infra 最重大的结构性迁移之一。

标签：infra, ai