2025年的圣诞节,Nvidia 花200亿美元,购入 Groq 的核心资产和团队

一、Groq 概览:做什么、强在哪

1.1 Groq 公司与产品一览

维度关键信息
公司Groq, Inc.,2016 年成立,总部美国加州 Mountain View,由前 Google TPU 团队创立
核心定位“推理优先”的 AI 半导体公司,只专注 大模型推理(Inference),不做通用 GPU
核心芯片LPU(Language Processing Unit):为 LLM 推理定制的 ASIC,加速 Chatbot、Agent、代码助手等
代表平台GroqCloud:基于 LPU 的云推理平台,提供 HTTP API、SDK/CLI、Playground
商业进展多轮融资后估值约 $28 亿;2025 年被曝 NVIDIA 拟以约 $200 亿收购其芯片资产与技术(不含 GroqCloud)

1.2 LPU 技术特点(对比传统 GPU)

维度Groq LPU v1 关键特征使用影响
存储架构SRAM-only:单芯片约 230MB on-chip SRAM,带宽最高约 80 TB/s,无 HBM/GDDR大幅降低外部访存延迟,适合流式生成
执行方式确定性执行(VLIW / dataflow 风格,无乱序/分支预测)2延迟极稳定,便于做严格 SLA(P95≈P99≈平均)
算力指标约 750 TOPS(INT8)/ 188 TFLOPs(FP16)@900MHz[31]面向推理优化,配合编译器充分榨干吞吐
推理性能在 Llama 系列开源 LLM 上,单用户可达 300–1000 token/s对话体验接近“秒回”,非常适合交互式应用
成本模型GroqCloud 采用 按 token 计费,百万 token 级别单价约 $0.59–$1.058对比同等性能 GPU 集群,单位 token 成本具优势

二、国外“类似 Groq”的项目:芯片与云服务两条线

可以从两个维度理解 Groq 的国外对标对象:

  • 在“专用 AI 芯片”层面与 LPU 类似或竞争的硬件公司
  • 在“高性能 LLM 推理平台”层面与 GroqCloud 抢用户的云服务

2.1 专用 AI 芯片层面的对比

公司/产品技术路线与 Groq 的相似/差异适用场景
Cerebras CS-3 / WSE-3整片晶圆级 AI 芯片,44GB on-chip SRAM、125 PFLOPs 级算力相似:都是为大模型算力重构架构;不同:Cerebras 更偏 训练+超高吞吐推理,官方称在部分 LLM 推理上吞吐可达 Groq 数倍[66]千亿级模型训练、超高并发推理,AI 超算
SambaNova SN40L数据流架构 + 三层内存(~520MB SRAM + 64GB HBM + DDR)相似:强调大模型推理吞吐与成本;不同:主打 大模型多租户企业场景,训推一体能力更强多模型、多租户企业级 LLM 平台
Lightmatter(光子计算)光子矩阵乘+电子控制,3D photonic 互联,Tbps 级带宽相似:都在物理层面重构 AI 加速;不同:Lightmatter 更偏 GPU/ASIC 集群互联与光子加速模块,不是完整“LPU”大规模 GPU/ASIC 集群互联、能耗优化
TenstorrentTensix AI core + RISC‑V 通用核,chiplet 可扩展相似:新一代 AI 专用硬件;不同:更“通用+开放”,支持训练与推理从边缘到数据中心的一体化 AI 芯片
Mythic、EdgeCortix、Hailo模拟存算一体/可重构加速/边缘 NPU相似:都是“非 GPU 的专用推理芯片”;不同:面向 边缘/低功耗,而 Groq 面向数据中心 LLM摄像头、IoT、车载等端侧推理

2.2 大厂自研 AI 芯片(间接竞品)

厂商芯片特点与 Groq 的关系
GoogleTPU v5/v5e绑定 Google Cloud,训推一体,支撑 Gemini 等在云端 AI 训练+推理整体方案上竞争
AWSInferentia / Trainium面向推理/训练,号称比通用 GPU 便宜在“云上成本优化推理”上对 Groq 有替代性
IntelGaudi 3主打“比 H100 更优的性能/成本比”作为 GPU/ASIC 方案,与 LPU 抢数据中心预算
AMDInstinct MI300/MI350高能效 GPU,FP4/FP8 推理突出在通用 GPU 阵营内对 Groq 构成价格与生态压力

2.3 高性能 LLM 推理平台层面的对比

平台底层硬件特点与 GroqCloud 的差别
Cerebras CloudCerebras CS-3 / WSE-3Llama 系列等模型上吞吐极高吞吐优势明显,但延迟不一定如 LPU 稳定
SambaCloudSN40L RDU对企业多模型场景支持强更偏“大模型多租户+训推一体”
Together AI / Fireworks AI / DeepInfra / SiliconFlowH100/A100/MI300X 等 GPU模型选择多、可自带模型、部署灵活更通用,极致低延迟和单位成本一般不及 LPU
Hugging Face Inference / TGI多云 GPU社区与 MLOps 生态强偏工具与托管,不是“速度极致优化”路线

三、中国国内“类似 Groq”的项目:谁最像?谁最现实?

从“像 Groq 到什么程度”分三层看:

  • 架构与理念最接近 LPU 的
  • 也是非 GPU 的专用 AI 芯片(TPU/NPU/ASIC)
  • 用国产 GPU/NPU 提供大模型推理算力的平台与厂商

3.1 最接近 Groq LPU 路线:无问芯穹(Infinigence AI)

维度信息
公司/品牌清华系创业公司 无问芯穹,提出“无穹 LPU”概念
技术路线基于 FPGA 的大模型处理器 LPU:时序/流式架构 + 动态部分重配置(DPR)+ 模型压缩
性能宣传单卡支持 Llama2‑70B 推理,实测约 300 token/s 量级;宣称在部分场景下速度可达 H100 的 10–20 倍、成本和能耗约 1/10(宣传口径)
工艺思路强调用 14nm 等成熟制程 + FPGA 也能高效跑 7B–70B 级模型,绕开先进工艺封锁
生态与应用已适配 DeepSeek 等国产大模型,并与联想、紫光展锐等合作,计划将 LPU 以 IP 形态下沉到端侧 SoC

与 Groq 的相似点:

  • 明确打出 LPU / 大模型处理器 概念
  • 聚焦 推理场景(尤其大语言模型),强调 “高速度 + 低成本 + 不依赖先进制程”
  • 采用 流式/数据流 + 近存/高效访存 的思路,而非经典 GPU

差异:

  • Groq 已是 专用 ASIC 量产 + 全球云服务
  • 无问芯穹目前仍以 FPGA + IP + 异构云 为主,更像快速迭代阶段。

3.2 专用 AI 芯片 / TPU / NPU 阵营

公司路线与 Groq 的关系与差异
中昊芯英国产 TPU 架构,12nm,训推一体;单芯号称在大模型任务上性能可超 A100,成本更低与 Groq 同属 “非 GPU 专用 AI 芯片”,创始人亦来自 TPU 团队;但更侧重 训练+推理一体,目标是 A100/TPU 替代,而非只做 LPU 式推理
寒武纪(Cambricon)云端 MLU + 边缘/终端 SoC,NPU 体系媒体常把寒武纪纳入 “LPU 产业链” 概念,但其产品实际是 通用 AI NPU,覆盖训练与推理
云天励飞GPNPU 架构,主攻安防起家的全场景推理芯片更偏摄像/城市物联等多模态推理,再延展到云端大模型,与 Groq 专注 LLM 不同
类脑/存算一体厂商(如灵汐科技等)类脑+稀疏计算,极低功耗推理设计哲学与 Groq 一样重视 近存与能效,但市场在边缘类脑应用,非主流 LLM 云推理

3.3 国产 GPU / NPU:现实中的 LLM 推理“主力军”

虽然这些厂商不是 LPU 路线,但在实际落地中,它们承担了类似 GroqCloud 的大量工作——提供算力与推理平台

类型代表核心特点
通用 GPGPU燧原科技:云燧 T/S/L600 等,训推一体,已在运营商/互联网大规模部署国产通用 GPU 代表,主攻智算中心与大模型平台
天数智芯:天垓 7nm GPGPU,累计出货数万片“国产 GPU 四小龙”之一,自建训推全栈
壁仞科技、沐曦、摩尔线程对标 NVIDIA 通用 GPU,覆盖图形+AI+视频
云端/边缘 NPU寒武纪、云天励飞专注 AI 推理,部署在云/边缘各种场景

这些公司在中国的角色,更接近:

“用国产 GPU / NPU + 自研软件栈,去完成 Groq + GPU 云厂商 在海外做的事”。

3.4 LPU 相关产业链参与者

环节企业举例与 LPU / 类 LPU 的关系
存储/存算一体兆易创新、北京君正、恒烁股份等提供 SRAM / NOR / 存算一体芯片,是 “SRAM-only / 近存” 路线的上游
封装测试长电科技、通富微电、华天科技为高带宽芯片(包括 LPU/TPU/GPU)提供先进封装
FPGA / EDA / IP复旦微电、华大九天、芯原等为基于 FPGA 的 LPU(如无问芯穹)提供基础器件与设计工具/IP

四、如何行动?

4.1 如果在选算力/推理平台(做应用)

可以按下面思路做初步筛选:

需求重点更适合关注的对象
海外部署、极致低延迟、开源 LLM 推理Groq + GroqCloud,也可对比 Cerebras Cloud、SambaCloud
需要同时兼顾训练+推理、模型规模超大Cerebras / SambaNova / Google TPU / AWS / GPU 云
在中国境内部署、强调“国产可控”无问芯穹(类 LPU) + 中昊芯英/寒武纪/云天励飞 + 国产 GPU(燧原、天数智芯等)
端侧/边缘大模型推理无问芯穹 LPU IP、寒武纪/云天励飞/类脑厂商、Hailo/EdgeCortix 等

4.2. 如果关注的是架构与技术路线

可以把 Groq vs. 无问芯穹 vs. 中昊芯英 放在一张简表中思考:

维度Groq LPU无问芯穹 LPU中昊芯英 TPU
实现形态ASIC,SRAM-onlyFPGA + 时序/流式 + 模型压缩ASIC,TPU 架构
主要任务大模型推理大模型推理训练 + 推理一体
工艺/策略14nm→4nm 迁移,配合高带宽 SRAM成熟工艺+FPGA,绕开先进制程限制12nm,自研指令集
商业模式自建 GroqCloud,卖“Tokens-as-a-Service”LPU 卡 + IP + 与算力平台/终端合作卖芯片 + 整机/集群(泰则集群)

五、总结

  • Groq:用 LPU + SRAM-only 架构,把“大模型推理”这件事做到极致——延迟可预期、token/s 极高、成本透明
  • 国外类似项目:Cerebras、SambaNova、Lightmatter 等在 架构创新 上与之同属一流;Together、Fireworks 等在 云推理服务 上与 GroqCloud 直接竞争。
  • 国内类似项目

    • 无问芯穹 在理念上最像 Groq,是目前最典型的“国产 LPU 路线”;
    • 中昊芯英、寒武纪、云天励飞 等,则站在 TPU/NPU 角度重构 AI 芯片;
    • 燧原、天数智芯、壁仞、沐曦、摩尔线程 等国产 GPU,则在实际大模型推理落地中扮演 Groq+GPU 云的“本土替代”。

标签:infra, ai

你的评论