AI Infra：中美大模型研发工程范式的异同研究

中美现在的大模型研发工程差异，历史上出现过相似的结构，就是冷战时期美苏武器研发路线的差异。美苏两条路线的核心差异在于资源禀赋与工程哲学：美国追求“宽裕可靠”，苏联追求“极致效率”

一、美苏武器研发路线的经典差异

冷战期间，美苏在高性能武器（尤其是航空、导弹、坦克等领域）的研发确实形成了鲜明对比：

美国路线：模块化、冗余与“货架产品”导向

美国拥有更雄厚的工业基础和供应链优势，倾向于使用成熟的商用现成组件（COTS），强调系统整体的可靠性和可维护性。单个子系统（如发动机、航电、雷达）往往追求最高技术指标，并留有较大冗余裕度。即使某部件失效，整体性能也不会大幅下降。

典型例子包括F-15战斗机、M1 Abrams坦克：重量大、油耗高、维护成本高，但战场生存力和持续作战能力极强。（F-15 甚至有一侧机翼损坏，但仍然返航的奇迹。）

苏联路线：系统优化、极限压榨与定制化巧思

苏联受资源约束更大，工业体系相对封闭，因此更注重整体系统工程，将每个部件的性能潜力压榨到极限，常通过巧妙的设计创新弥补单一组件的差距。定制化程度高，容错裕度小，一旦关键部件出问题可能导致整体失效。

典型例子包括MiG-25拦截机（用不锈钢而非钛合金大幅降低成本却实现极高速度）、T-72坦克（自动装弹机大幅减重但牺牲了部分安全性）。这种路线在特定指标上经常实现“弯道超车”，但长期可靠性和升级潜力较弱。

将这一模式映射到2023–2026年间的中美大模型竞争，确实存在高度结构上的相似性：

美国路线：算力充裕、组件顶尖、体系冗余

OpenAI、Google、Anthropic、Meta等美国机构拥有最先进的NVIDIA H100/H200/Blackwell系列芯片供应链，几乎无限制地堆叠算力。模型设计倾向于使用超大规模参数（GPT-4系列、Gemini Ultra、Llama 3等动辄千亿至万亿参数），训练时留有较大安全裕度（如多卡冗余、分布式容错）。

单个组件（如Transformer架构、RLHF对齐技术、数据清洗流水线）都代表当前最高水准，整体体系强调通用性、易部署性和生态兼容性（大量开源、API标准化）。结果是模型在广谱通用任务上表现稳健，但单位算力效率并非最高。

中国路线：系统优化、资源受限下的极限压榨

受实体清单限制，中国企业（百度文心、阿里通义、字节豆包、智谱GLM、DeepSeek、MiniMax等）难以获取最顶级海外芯片，大量依赖华为昇腾、壁仞、寒武纪等国产算力平台。

在这种约束下，中国团队更倾向于全栈系统工程优化：模型压缩（量化、稀疏化、蒸馏）、高效训练算法（FlashAttention变种、ZeRO优化深化）、架构创新（如MoE混合专家模型的深度应用、RWKV等非Transformer探索）、以及数据合成与清洗的极致工程。DeepSeek、Qwen系列等模型在同等显存下往往实现更高有效性能，单位算力性价比突出，体现出强烈的“压榨每一滴性能”的特征。

二、中美差异来源于算力供给差异

中美模型研发路线的差异，本质上是算力预算不同所诱导的最优工程解不同；算力规模决定了模型设计的自由度、容错率与组织形态，从而系统性地塑造了研发范式。

2.1 算力不是资源，而是“设计自由度”

当算力足够大时，你获得的不是线性放大的性能，而是额外的设计自由度：

2.1.1 可以容忍“非最优”

更大的模型
更长的上下文
更冗余的数据
更宽松的超参
更频繁的失败实验

这会自然推动：

通用大模型
模块化系统
工程冗余
平台化研发

也就是前面所说的“货架产品”路线。

2.1.2 算力受限时，最优解变得“尖锐”

在算力、卡型、互联受限的条件下：

模型结构选择空间急剧收缩
每一层、每一参数的性价比都变得重要
“浪费”直接变成不可承受的失败

于是研发自然演化为：

端到端系统工程
定制化结构
极限压榨效率
高耦合设计

这正是“苏联式 / 中国式”的系统工程路径。

2.2 算力规模如何具体塑造模型路线

2.2.1. Scaling Law 的“使用方式”不同

高算力环境：Scaling law 是“放心的保险”，可以用更粗的方式逼近最优（加参数、加数据）。
受限算力环境：Scaling law 要求必须在给定预算下求最优点。

这直接导致：

前者偏好 模型规模驱动
后者偏好 效率驱动（架构 / 数据 / 训练技巧）

2.2.2 数据策略的差异

算力充裕 → 可以：

用更嘈杂的数据
容忍重复与低质量
后处理弥补缺陷

算力受限 → 必须：

精挑高信噪比数据
强化数据配比、课程学习
用数据结构代替参数规模

于是出现：

数据蒸馏
合成数据闭环
高价值数据的“系统设计”

2.2.3 工程容错率差异

算力规模决定了实验失败的成本和试错的并行度，这会反过来塑造组织行为：

高算力 → 大团队、并行试错、平台化
低算力 → 小团队、专家驱动、一次成型

这点和美苏军工体系几乎一一对应，两边都会出现极其优秀的设计和产品。

2.3 进入某条路线，就会形成路径依赖

算力差异不只是“现在”的差异，而会在时间上放大。

高算力 → 更多成功实验 → 更强平台 → 更低边际成本
低算力 → 更少试错 → 更依赖专家 → 难以规模化复制

美国出现了大量优秀的巨型公司；苏联出现了大量的天才的设计总师。衰退的路线也不相同，美国是军工复合体让产品越来越贵，庞大的研发预算让创新难以持续；苏联则出现在设计总师去世或离开之后，设计局辉煌不再。

三、华裔 AI 研究人员流动带来的影响

华裔 AI 研究人员在中美之间的流动，在认知层面、方法层面削弱了双方的路径依赖，但在结构层面（算力、资本、制度、产业化路径）几乎不起决定性作用，因此只能“软化”而不能“逆转”路径依赖。

3.1 先区分三种“路径依赖”

3.1.1 认知路径依赖（最容易被削弱）

包括：

研究问题如何被定义
什么被视为“好模型 / 好论文 / 好产品”
对 scaling、架构、数据、工程的直觉判断

结论：华裔研究人员流动，对这一层影响最大。

典型表现：

把美式 scaling 直觉带回中国（“这个问题不是调参问题，是规模问题”）
把中式效率/系统直觉带到美国（“这个指标不值这么多算力”）

这也是我们能看到：

中美论文风格、模型设计在方法论上越来越相似
对 MoE、蒸馏、合成数据、RAG 等手段形成共识

3.1.2 方法路径依赖（部分削弱）

包括：

实验流程
代码工程习惯
评测与复现标准
组织协作方式（platform team vs elite team）

结论：被削弱，但存在“吸收上限”。

原因是：

方法必须嵌入具体的组织与基础设施
个人可以迁移方法，但无法迁移整个工程体系

典型例子：

回国研究员理解平台化研发，但在算力/合规/数据条件下只能“局部复刻”
在美研究员认可极限优化，但在大厂流程中难以系统落地

3.1.3 结构路径依赖（几乎不被削弱）

包括：

算力规模与获取方式
资本结构与容错率
合规与地缘政治
下游产业吸收能力

结论：几乎不受人员流动影响。

因为：

这些不是“知识”，而是不可由个体携带的约束条件
正是这些约束决定了前面两层的“有效性边界”

人才可以跨越边界，但算力、资本与制度不会。

3.2 为什么削弱是“不对称的”

3.2.1 对中国路径依赖的削弱 > 对美国的

美国路径依赖来自“资源充裕带来的惯性”
中国路径依赖来自“资源约束带来的最优策略”

当华裔研究人员在美训练出的scaling 直觉、工程规范、platform mindset等回流到中国时，会：把“本可通过规模解决的问题”从系统工程中解放出来，提前判断哪些优化不值得投入。因此对中国而言，这是减轻过度工程化的力量。

3.2.2. 对美国路径依赖的削弱是有限的

美国的问题不是“不知道效率优化”，而是“没必要为效率付出复杂度成本”。即便研究员知道,更高效的架构和更极限的系统技巧，但在现实中：算力更便宜、平台更重稳定性、组织更厌恶高耦合风险。所以这些技巧往往停留在论文或被封装为可选模块，而非主干路线。

3.3 真正削弱的不是“路径依赖”，而是“误判”

华裔研究人员在流动过程中，产生了一些关键作用：

防止双方对彼此路线的过度神话或妖魔化
让决策更接近真实约束条件下的最优解

例如：

“他们不是不会做 X，而是没必要 / 做不起”
“这个问题不是文化差异，而是预算差异”

这在战略层面极其重要，但它不等于改变结构现实。

3.4 流动可能“强化长期分化”

华裔 AI 研究人员的跨国流动，显著降低了中美在“认知与方法层面”的路径依赖，但对由算力、资本与制度构成的“结构性路径依赖”影响甚微；其结果不是路线融合，而是更理性、更稳定的分化。

当信息更对称后，双方会更清楚地认识到自己的约束不可短期改变，从而更理性地在各自最优路径上加速。结果可能是：方法论趋同，系统形态反而更分化。

就像美苏冷战后期：

工程知识并非完全隔绝
但武器体系分化更彻底

3.5 对现实的隐含启示

公司层面：不要指望“挖人”来改变结构性劣势；高价值人才的作用在于减少战略误判，而非替代资源投入
个人层面：真正稀缺的不是技术，而是“跨结构环境形成的判断力”

四、中美模型路线“更极端化”可能是必然

当人员流动因签证、地缘政治等因素下降时，中美 AI 模型研发路线不会趋同，而会在各自结构约束下加速范式纯化；这种“极端化”提高了局部最优，却降低了跨体系迁移与全球协同的可能性。

4.1 为什么人员流动下降会放大差异

4.1.1 信息摩擦上升 → 纠偏机制消失

跨国研究人员的流动，承担着一种“软校准器”的角色：

纠正对对方技术路线的误读
提供真实的资源约束信息
抑制极端叙事（如“他们不会做 X”）

当这一通道收缩：

决策更依赖本地成功案例
失败案例更容易被归因为“路线错误”而非“约束不同”
组织更倾向于复制内部范式

这会自然导致：路线单一化、范式内自证循环。

4.1.2 组织学习的“内循环化”

人员流动下降，意味着人才训练、晋升、评估更多发生在单一体系内，什么是“好研究”“好模型”的定义被固化，结果是：

美国体系：更强化 scaling + platform + safety by process
中国体系：更强化 效率 + 系统工程 + 端到端定制

这不是意识形态，而是组织学习在封闭环境中的自然结果。

4.1.3 风险厌恶与“可解释安全感”的上升

在地缘政治不确定性上升时：

组织倾向于选择自己最熟悉、最可控的路线
混合范式被视为“不可预测风险源”

因此：

美国更不愿引入高耦合、难审计的极限优化
中国更不愿押注对算力高度敏感、不可持续的 scaling 路线

极端化，本质是风险管理策略的收缩。

4.2 “极端化”具体会长什么样

4.2.1 美国侧的“极端化”核心是“厚重”

更大模型、更长上下文
更强的平台化（模型即基础设施）
更严格的安全、评测、合规模块
对效率优化的系统性封装（而非主路径）

结果是：

模型像操作系统，创新发生在上层生态。

4.2.2 中国侧的“极端化”核心是“工程化”

更小但高度定制的模型族
更深的软硬协同（算子、编译、推理栈）
更激进的蒸馏、合成数据、任务特化
强调“可部署性”而非“参数规模”

结果是：

模型像设备，创新发生在系统级集成。

4.3 范式纯化可能提高“局部最优”

范式纯化并不降低整体技术水平，反而可能提高“局部最优”。

历史对照：

美苏武器体系在隔绝中都达到各自巅峰
但体系间互操作性与迁移成本极高

对 AI 的含义是：

各自路线在“自己的约束空间”里会更高效
但跨体系复用能力下降
全球技术碎片化加剧

4.4 什么时候“极端化”会变成问题

评价体系完全内生化
只用本地 benchmark、只对内解释成功。
替代路径被制度性排除
不是“做得不好”，而是“不被允许尝试”。
工程复杂度超过组织消化能力
尤其在高度定制化系统中，人员断层会造成系统失控。

这三点一旦出现，极端化就会从“纯化”转为“僵化”。

五、路径锁定的突破可能性

在范式分化加深的背景下，只有那些“改变算力边际收益、且可作为插入式改进”的基础技术突破，才可能成为跨体系共识；它们不会消除分化，但会重塑分化发生的地形。

5.1 成为“跨体系共识”的必要条件

一项技术若要打破路径锁定，必须同时满足四个条件：

对算力的边际收益函数产生变化，不是“更便宜一点”，而是改变 scaling 的斜率或拐点
不要求整体组织与基础设施重构，能作为“插入式改进”（drop-in improvement）落地
在两种约束下都是 Pareto 改进
- 对高算力体系：更强 / 更稳 / 更安全
- 对低算力体系：更省 / 更可控 / 更可部署
可被现有评测与商业逻辑捕获，否则难以在现实中扩散

只有极少数方向符合这四条。

5.2 最有可能形成跨体系共识的三类突破

第一类：训练与推理中“无损或近无损效率提升”的基础算法

典型特征：

不改变模型语义
不要求重新设计系统
直接降低 FLOPs / 内存 / 通信

例子（抽象层面）：

更好的 attention 近似或稀疏化（在等质量下）
更稳定的低精度训练/推理（无需精调）
通用可证明收敛的并行化 / 通信压缩

为什么会成为共识：

对美国：规模更大、成本更低、训练更稳
对中国：同等算力下性能直接提升
对双方：这是“白捡”的改进

没人会拒绝更好，更高效的 GPU kernel

第二类：“能力密度”显著提升的架构或训练范式

不是更大模型，而是每个参数更“聪明”。典型方向：

MoE 的稳定化与可控路由（减少浪费）
参数共享 / 复用的可泛化机制
在不牺牲通用性的前提下减少冗余表示

为什么可能跨体系：

美国可以把“省下的参数”继续 scale
中国可以把“同等能力装进更小模型”

关键在于：

能力密度提升必须是结构性的，而非任务特化。一旦需要大量定制，它就会被某一体系拒绝。

第三类：改变“训练—使用”分工的范式

这类突破最有潜力，但也最难。核心思想是：

把部分“智能”从离线训练，迁移到在线使用
让模型在推理时以更低代价获得适配能力

抽象例子：

高效、可控的 test-time adaptation
极低开销的内存/检索增强（非工程堆砌）
学习到的“工具使用”而非参数内化

为什么有潜力：

美国：减少反复大规模再训练
中国：减少对一次性大模型的依赖

为什么难：

评测难
安全/稳定性挑战大
很容易退化成“系统工程技巧”，失去共识性

5.3 哪些方向很难成为跨体系共识

高度依赖特定硬件的协同设计，会被算力充裕方视为供应链风险
极端任务特化的小模型技巧，通用体系不会为此牺牲一致性
需要重塑组织流程的范式，大厂与国家级系统的阻力极大
无法被标准 benchmark 捕获的能力，再好也难扩散

个人比较看好 Infra 层面的细节改进，可能带来奇效，所谓“弱者道之用”

六、模型开源，是中国大模型的必然选择

中国大模型更倾向开源，并非价值观差异，而是算力规模、市场结构与研发范式共同作用下的理性均衡；开源在此承担了放大系统工程效率、分散研发风险、替代平台协调的功能。也就是说，当算力与平台控制力不足以形成事实垄断时，开源是“放大体系能力”的最优制度设计。

6.1 算力规模“推导”出开源

6.1.1 闭源大模型的隐含前提

闭源路线在经济上成立，至少需要同时满足三点：

持续可得的超大规模算力
足以覆盖成本的全球化市场
通过 API 或平台形成的事实标准

这是美国头部模型公司能够走通闭源路线的结构性原因。2026年1月刚刚发生的 Claude 封锁 Opencode 事件，也是一个小小注脚。

6.1.2 当这些前提不成立时会发生什么

在算力受限、市场碎片化、标准尚未确立的环境下：

闭源 → 成本集中、风险集中、生态弱
开源 → 成本分散、能力扩散、生态加速

对中国大模型而言：

单点闭源很难形成全球“锁定效应”
开源可以把研发不确定性转移给生态共同体，是风险与收益的最优再分配。

6.2 开源如何与“系统工程 / 效率路线”形成互补

6.2.1 开源放大“系统优化”的外部性

系统工程路线的一个天然问题是：

优化高度分散
场景碎片化
单一团队难以覆盖

开源能：

把不同场景的效率优化并行化
让架构、数据、推理技巧在社区中自然竞争
快速筛选“单位算力最优解”

这与中国路线强调的：在给定算力预算下寻找全局最优是一致的。

6.2.2 开源降低“极端化”的风险

在前面所述的范式纯化趋势下：

闭源容易加速体系内自证
开源保留外部视角与反事实

这对算力受限方尤其重要，可以避免过早锁定某一架构，保留技术路线的可逆性。

6.3 为什么美国体系“反而”不急于开源

这点常被误读为“封闭保守”，但实质是领先状态下的理性。

6.3.1 平台垄断的最优策略是闭源

当你能：

通过 API 定价算力
通过平台吸纳生态
通过规模持续领先

那么：

开源/开放反而会稀释护城河
闭源/封闭是保持结构优势的自然选择

6.3.2 美国仍在“开源”，但位置不同

关键差异在于开源发生在栈的不同层：

美国更倾向于开源：
- 框架（PyTorch）
- 底层库
- 工具链
中国更倾向于开源：
- 模型权重
- 推理方案
- 端到端系统

这是两种体系对“控制点”的不同选择，目的都是放大自己的优势，避免自己的劣势。

6.3.3 开源承担着“非市场化协同机制”的角色

在一个行业集中度不高，标准尚未统一，商业闭环多样的环境中，开源：

实际上替代了“平台整合者”的部分功能
成为事实上的技术协调层

这在美国由超大平台完成，在中国则更多由开源承担。

七、能源供给的巨大影响

当前中美在能源供给和算力芯片供给上存在巨大差异，在较长的一段时间里，差异会长期存在

7.1 能源供给：中国显著占优

中国电力产能已远超美国，总发电量约为美国的两倍以上，并预计到2026年进一步扩大至三倍左右。这一优势源于大规模可再生能源投资（风电、太阳能领先全球）、核电建设加速以及庞大的电网基础设施。中国数据中心电力供应充裕、成本较低，且备用容量充足（预计2030年达400吉瓦），这直接支持超大规模AI训练集群的持续运行。

对研发路径的影响：
这一能源优势缓解了中国在芯片性能差距下的算力瓶颈，允许通过“以量补质”策略构建更大规模国产集群（如华为CloudMatrix系统）。这强化了中国团队的系统优化倾向，进一步压榨效率，并在单位能耗性能上实现突破。

7.2 算力芯片供给：美国持续领先

美国通过NVIDIA Blackwell/Rubin系列主导前沿芯片供应链，单卡性能、能效和互联优势显著。华为Ascend 910C/950PR等国产芯片虽产量大幅提升（2025–2026年达数百万级），但在FP16等关键指标上仍落后约40%，集群级性能需依赖光学互联等创新弥补。

对研发路径的影响：
芯片供给约束仍是中美路径分化的核心根源。美国团队可依赖顶尖硬件进行参数堆叠和冗余实验，而中国则被迫深化架构创新（如MoE、量化技术和自定义分布式框架），形成“极限压榨”的工程文化。

7.3 算力供给 = 芯片 + 能源

首先来定义算力：

算力 ≈ 可获得的高性能计算能力

在现实中，需要把“算力”拆成两个被长期混用的变量，由两个可部分独立的结构性变量共同决定算力：

算力芯片与系统设计能力：制程、架构、互联、软件栈
能源供给与能耗承载能力：电价、稳定性、调度能力、政策约束

中美的差异，恰恰是在这里发生了“结构性交叉”：

维度	中国	美国
能源供给	占优（规模、稳定性、调度空间）	受限（电网老化、审批慢、环保约束）
算力芯片	受限（制程、出口管制）	占优（NVIDIA + 生态）

这意味着：
双方并不是简单的“强 vs 弱”，而是“要素错配”。

7.4 能源/芯片供给影响“算力 → 范式分化”

7.4.1 短期（1–3 年）：结论基本不变，甚至被强化

在短期内，算力芯片仍是决定性瓶颈：

能源无法直接转化为高端训练算力
单位算力效率仍高度依赖先进制程
美国可以把“能耗问题”外包给海外云区、资本市场

因此：

美国继续走 规模 + 冗余 + 平台化
中国继续深化 效率 + 系统工程 + 定制优化

7.4.2 中期（3–7 年）：能源开始“重新进入算力函数”

当训练规模持续扩大，一个变化会逐渐显性化：算力不再只受芯片限制，而开始受“可持续能耗”限制。

几个关键趋势：

超大模型训练与推理的电力成本成为一阶变量
数据中心选址从“靠近用户”转向“靠近能源”
能源审批、输电能力成为算力扩展的隐性上限

在这个阶段，中国的优势开始显现：

更集中的电网调度能力
更快的数据中心审批速度
更低的单位电力成本

这会抬高“系统工程能力”的战略价值。

7.5 一个重要但反直觉的推论

能源优势不会自动转化为“美国式算力规模”，但会放大“中国式系统工程路线”的长期回报。

原因在于：

芯片受限 → 不能简单 scale up
能源充裕 → 可以持续试错、跑长周期优化
工程密集 → 更容易把能耗、调度、模型结构一体化设计

这会推动中国路线进一步向以下方向演进：

能耗感知模型设计
- 把功耗当作 loss 的一部分
训练—推理一体化优化
- 为长期运行而非一次性 SOTA
“便宜算力”的系统放大
- 用调度、批处理、异步训练换规模

这不是追赶美国，而是在另一条坐标轴上走得更远。

总结：

中美大模型路线，是算力与能源约束下的两种最优解：美国用冗余换通用，中国用工程换效率；人才流动让双方更清醒，但无法改变结构；未来不是融合，而是各自走向极端，唯有能“无损提效”的底层技术，才可能成为全球共识。

标签：算力, ai, agent