2025年的圣诞节,Nvidia 花200亿美元,购入 Groq 的核心资产和团队
一、Groq 概览:做什么、强在哪
1.1 Groq 公司与产品一览
| 维度 | 关键信息 |
|---|
| 公司 | Groq, Inc.,2016 年成立,总部美国加州 Mountain View,由前 Google TPU 团队创立 |
| 核心定位 | “推理优先”的 AI 半导体公司,只专注 大模型推理(Inference),不做通用 GPU |
| 核心芯片 | LPU(Language Processing Unit):为 LLM 推理定制的 ASIC,加速 Chatbot、Agent、代码助手等 |
| 代表平台 | GroqCloud:基于 LPU 的云推理平台,提供 HTTP API、SDK/CLI、Playground |
| 商业进展 | 多轮融资后估值约 $28 亿;2025 年被曝 NVIDIA 拟以约 $200 亿收购其芯片资产与技术(不含 GroqCloud) |
1.2 LPU 技术特点(对比传统 GPU)
| 维度 | Groq LPU v1 关键特征 | 使用影响 |
|---|
| 存储架构 | SRAM-only:单芯片约 230MB on-chip SRAM,带宽最高约 80 TB/s,无 HBM/GDDR | 大幅降低外部访存延迟,适合流式生成 |
| 执行方式 | 确定性执行(VLIW / dataflow 风格,无乱序/分支预测)2 | 延迟极稳定,便于做严格 SLA(P95≈P99≈平均) |
| 算力指标 | 约 750 TOPS(INT8)/ 188 TFLOPs(FP16)@900MHz[31] | 面向推理优化,配合编译器充分榨干吞吐 |
| 推理性能 | 在 Llama 系列开源 LLM 上,单用户可达 300–1000 token/s | 对话体验接近“秒回”,非常适合交互式应用 |
| 成本模型 | GroqCloud 采用 按 token 计费,百万 token 级别单价约 $0.59–$1.058 | 对比同等性能 GPU 集群,单位 token 成本具优势 |
二、国外“类似 Groq”的项目:芯片与云服务两条线
可以从两个维度理解 Groq 的国外对标对象:
- 在“专用 AI 芯片”层面与 LPU 类似或竞争的硬件公司
- 在“高性能 LLM 推理平台”层面与 GroqCloud 抢用户的云服务
2.1 专用 AI 芯片层面的对比
| 公司/产品 | 技术路线 | 与 Groq 的相似/差异 | 适用场景 |
|---|
| Cerebras CS-3 / WSE-3 | 整片晶圆级 AI 芯片,44GB on-chip SRAM、125 PFLOPs 级算力 | 相似:都是为大模型算力重构架构;不同:Cerebras 更偏 训练+超高吞吐推理,官方称在部分 LLM 推理上吞吐可达 Groq 数倍[66] | 千亿级模型训练、超高并发推理,AI 超算 |
| SambaNova SN40L | 数据流架构 + 三层内存(~520MB SRAM + 64GB HBM + DDR) | 相似:强调大模型推理吞吐与成本;不同:主打 大模型多租户企业场景,训推一体能力更强 | 多模型、多租户企业级 LLM 平台 |
| Lightmatter(光子计算) | 光子矩阵乘+电子控制,3D photonic 互联,Tbps 级带宽 | 相似:都在物理层面重构 AI 加速;不同:Lightmatter 更偏 GPU/ASIC 集群互联与光子加速模块,不是完整“LPU” | 大规模 GPU/ASIC 集群互联、能耗优化 |
| Tenstorrent | Tensix AI core + RISC‑V 通用核,chiplet 可扩展 | 相似:新一代 AI 专用硬件;不同:更“通用+开放”,支持训练与推理 | 从边缘到数据中心的一体化 AI 芯片 |
| Mythic、EdgeCortix、Hailo | 模拟存算一体/可重构加速/边缘 NPU | 相似:都是“非 GPU 的专用推理芯片”;不同:面向 边缘/低功耗,而 Groq 面向数据中心 LLM | 摄像头、IoT、车载等端侧推理 |
2.2 大厂自研 AI 芯片(间接竞品)
| 厂商 | 芯片 | 特点 | 与 Groq 的关系 |
|---|
| Google | TPU v5/v5e | 绑定 Google Cloud,训推一体,支撑 Gemini 等 | 在云端 AI 训练+推理整体方案上竞争 |
| AWS | Inferentia / Trainium | 面向推理/训练,号称比通用 GPU 便宜 | 在“云上成本优化推理”上对 Groq 有替代性 |
| Intel | Gaudi 3 | 主打“比 H100 更优的性能/成本比” | 作为 GPU/ASIC 方案,与 LPU 抢数据中心预算 |
| AMD | Instinct MI300/MI350 | 高能效 GPU,FP4/FP8 推理突出 | 在通用 GPU 阵营内对 Groq 构成价格与生态压力 |
2.3 高性能 LLM 推理平台层面的对比
| 平台 | 底层硬件 | 特点 | 与 GroqCloud 的差别 |
|---|
| Cerebras Cloud | Cerebras CS-3 / WSE-3 | Llama 系列等模型上吞吐极高 | 吞吐优势明显,但延迟不一定如 LPU 稳定 |
| SambaCloud | SN40L RDU | 对企业多模型场景支持强 | 更偏“大模型多租户+训推一体” |
| Together AI / Fireworks AI / DeepInfra / SiliconFlow | H100/A100/MI300X 等 GPU | 模型选择多、可自带模型、部署灵活 | 更通用,极致低延迟和单位成本一般不及 LPU |
| Hugging Face Inference / TGI | 多云 GPU | 社区与 MLOps 生态强 | 偏工具与托管,不是“速度极致优化”路线 |
三、中国国内“类似 Groq”的项目:谁最像?谁最现实?
从“像 Groq 到什么程度”分三层看:
- 架构与理念最接近 LPU 的
- 也是非 GPU 的专用 AI 芯片(TPU/NPU/ASIC)
- 用国产 GPU/NPU 提供大模型推理算力的平台与厂商
3.1 最接近 Groq LPU 路线:无问芯穹(Infinigence AI)
| 维度 | 信息 |
|---|
| 公司/品牌 | 清华系创业公司 无问芯穹,提出“无穹 LPU”概念 |
| 技术路线 | 基于 FPGA 的大模型处理器 LPU:时序/流式架构 + 动态部分重配置(DPR)+ 模型压缩 |
| 性能宣传 | 单卡支持 Llama2‑70B 推理,实测约 300 token/s 量级;宣称在部分场景下速度可达 H100 的 10–20 倍、成本和能耗约 1/10(宣传口径) |
| 工艺思路 | 强调用 14nm 等成熟制程 + FPGA 也能高效跑 7B–70B 级模型,绕开先进工艺封锁 |
| 生态与应用 | 已适配 DeepSeek 等国产大模型,并与联想、紫光展锐等合作,计划将 LPU 以 IP 形态下沉到端侧 SoC |
与 Groq 的相似点:
- 明确打出 LPU / 大模型处理器 概念
- 聚焦 推理场景(尤其大语言模型),强调 “高速度 + 低成本 + 不依赖先进制程”
- 采用 流式/数据流 + 近存/高效访存 的思路,而非经典 GPU
差异:
- Groq 已是 专用 ASIC 量产 + 全球云服务,
- 无问芯穹目前仍以 FPGA + IP + 异构云 为主,更像快速迭代阶段。
3.2 专用 AI 芯片 / TPU / NPU 阵营
| 公司 | 路线 | 与 Groq 的关系与差异 |
|---|
| 中昊芯英 | 国产 TPU 架构,12nm,训推一体;单芯号称在大模型任务上性能可超 A100,成本更低 | 与 Groq 同属 “非 GPU 专用 AI 芯片”,创始人亦来自 TPU 团队;但更侧重 训练+推理一体,目标是 A100/TPU 替代,而非只做 LPU 式推理 |
| 寒武纪(Cambricon) | 云端 MLU + 边缘/终端 SoC,NPU 体系 | 媒体常把寒武纪纳入 “LPU 产业链” 概念,但其产品实际是 通用 AI NPU,覆盖训练与推理 |
| 云天励飞 | GPNPU 架构,主攻安防起家的全场景推理芯片 | 更偏摄像/城市物联等多模态推理,再延展到云端大模型,与 Groq 专注 LLM 不同 |
| 类脑/存算一体厂商(如灵汐科技等) | 类脑+稀疏计算,极低功耗推理 | 设计哲学与 Groq 一样重视 近存与能效,但市场在边缘类脑应用,非主流 LLM 云推理 |
3.3 国产 GPU / NPU:现实中的 LLM 推理“主力军”
虽然这些厂商不是 LPU 路线,但在实际落地中,它们承担了类似 GroqCloud 的大量工作——提供算力与推理平台。
| 类型 | 代表 | 核心特点 |
|---|
| 通用 GPGPU | 燧原科技:云燧 T/S/L600 等,训推一体,已在运营商/互联网大规模部署 | 国产通用 GPU 代表,主攻智算中心与大模型平台 |
| | 天数智芯:天垓 7nm GPGPU,累计出货数万片 | “国产 GPU 四小龙”之一,自建训推全栈 |
| | 壁仞科技、沐曦、摩尔线程 | 对标 NVIDIA 通用 GPU,覆盖图形+AI+视频 |
| 云端/边缘 NPU | 寒武纪、云天励飞 等 | 专注 AI 推理,部署在云/边缘各种场景 |
这些公司在中国的角色,更接近:
“用国产 GPU / NPU + 自研软件栈,去完成 Groq + GPU 云厂商 在海外做的事”。
3.4 LPU 相关产业链参与者
| 环节 | 企业举例 | 与 LPU / 类 LPU 的关系 |
|---|
| 存储/存算一体 | 兆易创新、北京君正、恒烁股份等 | 提供 SRAM / NOR / 存算一体芯片,是 “SRAM-only / 近存” 路线的上游 |
| 封装测试 | 长电科技、通富微电、华天科技 | 为高带宽芯片(包括 LPU/TPU/GPU)提供先进封装 |
| FPGA / EDA / IP | 复旦微电、华大九天、芯原等 | 为基于 FPGA 的 LPU(如无问芯穹)提供基础器件与设计工具/IP |
四、如何行动?
4.1 如果在选算力/推理平台(做应用)
可以按下面思路做初步筛选:
| 需求重点 | 更适合关注的对象 |
|---|
| 海外部署、极致低延迟、开源 LLM 推理 | Groq + GroqCloud,也可对比 Cerebras Cloud、SambaCloud |
| 需要同时兼顾训练+推理、模型规模超大 | Cerebras / SambaNova / Google TPU / AWS / GPU 云 |
| 在中国境内部署、强调“国产可控” | 无问芯穹(类 LPU) + 中昊芯英/寒武纪/云天励飞 + 国产 GPU(燧原、天数智芯等) |
| 端侧/边缘大模型推理 | 无问芯穹 LPU IP、寒武纪/云天励飞/类脑厂商、Hailo/EdgeCortix 等 |
4.2. 如果关注的是架构与技术路线
可以把 Groq vs. 无问芯穹 vs. 中昊芯英 放在一张简表中思考:
| 维度 | Groq LPU | 无问芯穹 LPU | 中昊芯英 TPU |
|---|
| 实现形态 | ASIC,SRAM-only | FPGA + 时序/流式 + 模型压缩 | ASIC,TPU 架构 |
| 主要任务 | 大模型推理 | 大模型推理 | 训练 + 推理一体 |
| 工艺/策略 | 14nm→4nm 迁移,配合高带宽 SRAM | 成熟工艺+FPGA,绕开先进制程限制 | 12nm,自研指令集 |
| 商业模式 | 自建 GroqCloud,卖“Tokens-as-a-Service” | LPU 卡 + IP + 与算力平台/终端合作 | 卖芯片 + 整机/集群(泰则集群) |
五、总结
- Groq:用 LPU + SRAM-only 架构,把“大模型推理”这件事做到极致——延迟可预期、token/s 极高、成本透明。
- 国外类似项目:Cerebras、SambaNova、Lightmatter 等在 架构创新 上与之同属一流;Together、Fireworks 等在 云推理服务 上与 GroqCloud 直接竞争。
国内类似项目:
- 无问芯穹 在理念上最像 Groq,是目前最典型的“国产 LPU 路线”;
- 中昊芯英、寒武纪、云天励飞 等,则站在 TPU/NPU 角度重构 AI 芯片;
- 燧原、天数智芯、壁仞、沐曦、摩尔线程 等国产 GPU,则在实际大模型推理落地中扮演 Groq+GPU 云的“本土替代”。
标签:infra, ai