AI Infra:面向 Agent 的数据库演化路径及投资机会
数据基础设施正在从“描述世界”转向“Agent 理解世界并在其中行动”,数据库作为 Data Infra 的核心组件,也在经历从传统架构向 Agent 时代的转型。
核心不是数据形态,而是 Data → Knowledge → Context → Decisions → Actions → Feedback 的闭环。
一、整体演化:从 “面向报表” 到 “面向智能体”
| 阶段 | 传统数据仓库(DW) | 数据湖(DL) | Lakehouse / 现代云数据库 | Agent 数据基础设施(Data for AI) |
|---|---|---|---|---|
| 基本诉求 | 报表、决策支持 | 低成本存储所有数据 | 事务+分析统一 | 让智能体实时感知世界、行动 |
| 数据形态 | 结构化、整洁表格 | 半结构/非结构 | Parquet、Delta | 文本、embedding、事件、Context Graph |
| 计算模式 | ETL 批处理 | ELT、流+批 | 流批一体、向量/列式 | 检索增强、向量+图+流 |
| 元数据 | 静态业务字典 | Schema-on-read | 活跃元数据 | 语义元数据、知识图谱、上下文路由 |
| AI 角色 | 无 | 辅助训练 | 模型训练、近实时分析 | AI = 数据消费者 + 数据生成者 |
| 核心瓶颈 | 数据生产慢、不可自服务 | 混乱、难治理 | 成本、复杂度 | 数据语义化、自动质量、反馈回路 |
演化不是替代,而是层层叠加,同时也是从被动“pull”到主动“push”的交互:
DW → DL → Lakehouse → Agent-native Data Infra
二、核心驱动力:Data for AI 的三大需求
Agent时代的数据基础设施必须解决旧范式做不到的三件事:
2.1 实时性
模型必须对“当下”敏感:
- 用户状态(意图、偏好、最近行为)
- 环境状态(库存/价格/设备状态)
- 世界状态(新闻、交易、监控流)
要求:流式处理、事件存储、增量特征、Online Feature Store
2.2 语义化
AI 需要的是 meaning,不是以 SQL 出现的操作:
- 结构化数据 → 语义 embedding
- 原文档/网页 → chunk / node / graph
- 关系 → Knowledge Graph / Ontology
- Query → 意图、任务、Agent Plan
要求:向量库 + 文档库 + 图数据库 + 元数据系统联动(一个“语义层”)
2.3 反馈回路
Agent 不只是“读数据”,还会“写数据”:
- 生成计划、执行工具、读写用户偏好
- 评估结果 → 自动改进(RLHF/RLAIF)
- 修正知识库、更新记忆、更新工作流节点
要求:有版本、可追溯、可回滚、可学习的数据系统(类似 Git+数据库,每一次数据“快照”都有意义)。
三、为什么旧的数据基础设施不能支撑 Agent
3.1 数据仓库的假设完全不适用于 AI
| 旧假设 | Agent 时代现实 |
|---|---|
| 数据 schema 先定义好 | 数据语义动⽽不是表结构先行 |
| 每天跑一次 ETL 足够 | agent 需要秒级更新 |
| “事实表 + 维表”足够描述业务 | agent 需要过程、状态、上下文、非结构化 |
| 主要场景是 BI | 主要场景是决策、生成、计划 |
| 人看报表 | AI 读+写+理解+行动 |
核心区别是数据的消费者变了:
- 数据仓库 是 for humans
- Agent infra 是 for machines
这一变化深刻影响着 Data Infra,催生众多工具,如面向 Agent 的浏览器等。
3.2 数据湖能满足 AI 的一半需求
数据湖的问题是“存储一切”,但不是“理解一切”。
- 数据非结构导致 难语义化、难检索、难治理
- 文档碎片化,没有 Context 路由
- 回答问题需要 lineage + 意图理解
- 无向量索引,无语义层
3.3 Lakehouse / 现代数据库不够好
以 Snowflake / BigQuery / Databricks / SingleStore / ClickHouse 为代表:
- 支持流批一体,避免时延
- 支持半结构 JSON、Parquet
- 支持向量索引、UDF、模型托管(如Snowflake Cortex)
- 更好的元数据治理和 Catalog
但仍然缺少:
- 语义层
- Agent Memory
- 自动反馈回路
核心区别:
- 现代数据库能做的是:AI-ready
- Agent 想要的是:AI-native
四、以数据库为核心的 Agent 时代数据基础设施完整组件
核心概念是从“为人提供洞察”变成“为机器提供行动能力”,是一整套工具链
4.1 Data Sources
业务数据库、事件流、文件、API、IoT、应用日志…
4.2 Data Fabric
- 流批一体(Kafka, Redpanda)
- Change Data Capture(Debezium, StreamZero)
- Embedding Pipeline(文本、视频、表格)
4.3 Data Lakehouse
存储结构化 + 半结构化:Delta、Iceberg、Hudi
用于:
- 真相源(source of truth)
- 训练数据
- 版本化数据
4.4 语义层(核心差异)
构成 Agent 时代的灵魂部分:
- 向量数据库:Milvus, Weaviate, Qdrant
- 知识图谱 / Graph DB:PuppyGraph, Nebula, FalkorDB
- Context Graph / Context Store:Zep, Prometheus
- 语义 Catalog:LLM 生成的元数据、标签、质量评估
语义层建立“可被 AI 消化”的世界结构。
4.5 Agent Memory 系统
又可以细分三层:
- 短期记忆(STM):上下文窗口 / RAG / Retrieval
- 中期记忆(working memory):Agent Plan / 工具链执行轨迹
- 长期记忆(LTM):用户档案、偏好、人物模型、长期任务
优秀代表:Zep, Prometheus
4.6 决策与规划层
- LLM → Planner → Tool selector
- Task Graph / Worklets
- 业务规则和安全策略
4.7 Feedback Loop
Agent 执行 → 评估 → 写入:
- 修正知识库
- 更新 embeddings
- 写入用户画像
- 自动生成数据质量标签
- RLHF/RLAIF 训练反馈
五、与数据库架构演化并行的投资与并购
5.1 Databricks 收购 Neon
Databricks,于2025年5月14日宣布收购 PostgreSQL 生态公司 Neon,战略意图是提供一个开放、serverless 的数据库基础,专供开发人员和AI代理使用。Neon的内部数据显示,在其平台上配置的数据库中,有五分之四(超过80%)是 Agent 自动创建的。
5.2 Snowflake 的企业级AI数据云战略
5.2.1 收购 Neeva:整合生成式AI搜索能力
2023年5月以1.85亿美元收购专注于隐私的搜索初创公司 Neeva。核心价值在于将Neeva的生成式AI搜索技术引入Snowflake的数据云。
5.2.2 收购 Crunchy Data:确保企业级合规性
2025年6月以约2.5亿美元的价格收购 PostgreSQL 生态云服务提供商Crunchy Data。
5.3 EDB 收购 2ndQuadrant
EDB(EnterpriseDB),作为 PostgreSQL 的主要贡献者之一,于2020年9月30日宣布收购全球PostgreSQL解决方案公司 2ndQuadrant。
5.4 Supabase 完成1亿美元的E轮融资,公司估值达到50亿美元
2025年10月完成1亿美元的E轮融资,公司估值达到50亿美元。该轮融资由 Accel 和 Peak XV 领投。
上面的投资和并购,都是 PostgreSQL 生态的(其实还有pgEdge获得投资),是因为在海外 Postgre 生态非常健康,有大量的企业数据(作为TP使用)跑在上面。AI 为了获取这部分数据,最简单的方式就是通过扩展插件来实现分析(AP)任务和更强实时性的任务。国内略有不同,MySQL 的占比更高,因此兼容 MySQL 生态有更大价值。
5.5 OpenAI 的数据库投资
- 2024 年6月,OpenAI 收购了 Rockset,目的也是 Rockset 的“实时分析+向量检索+索引”能力
- OpenAI 的 CPO,Kevin Weil,作为天使投资者参与了 Supabase 最新一轮融资
六、中国国内数据库市场的投资机会
核心关注点是谁能帮助企业做到 “AI-ready”,并走向 “AI-Native”,包括两步:
- 传统数据库改造迁移
- 单一数据到多模态数据
6.1 HTAP 路线
把 MySQL、PostgreSQL、Oracle 的交易型数据,转化为分析型数据,重点考察工具链成熟度和去 ETL 能力
6.2 多模态路线
图数据库、向量数据库、时序数据库、多模态数据库厂商的故事会更难一点,考虑能在传统的数据湖仓之上,直接搭建图、向量等的技术路线
6.3 数据平台路线
具备底层技术能力的数据平台团队,通常估值很高,可以主动发起并购,合并高创新性的小团队