大模型的优势也来自于真实世界反馈的密度与一致性 - 从强化学习角度理解蔡崇信港大演讲
2025年11月5日,阿里巴巴集团董事长蔡崇信在港大有一场演讲,他提出了中国在AI领域的四个优势:能源成本、数据中心基建、AI 人才红利,为解决算力受限进行的系统级优化
我想从强化学习的角度,来理解演讲中的一些观点:
核心观点:场景就是 AI 的强化学习反馈
AI 的优势来自真实世界反馈的密度与一致性——场景越多,强化学习越强,壁垒越高
一、为什么真实世界反馈重要
- 不可伪造性:真实用户行为、系统日志、交易结果比人工模拟更可信
- 时空一致性:随时间积累的连续数据比碎片化标注更能训练出稳健策略
- 负样本价值:失败案例比成功样本更稀缺,也更有学习价值
- 隐形知识数字化:通过海量的真实反馈,AI能通过“试错-奖励”机制,隐式地学会这些无法言传的规则
二、AI 从“算法竞争”转向了“场景与数据反馈闭环的竞争”
本质上是RLHF(基于人类反馈的强化学习)或RLEF(基于环境反馈的强化学习)在宏观尺度上的体现
| 特征 | RLHF (Reinforcement Learning from Human Feedback) | RLEF (Reinforcement Learning from Environment Feedback) |
|---|---|---|
| 奖励信号来源 | 人类偏好、评估或评分。 奖励信号是间接的。 | 真实环境或系统的状态变化。 奖励信号是直接的。 |
| 反馈性质 | 主观性、道德性、审美性。 评估如“更安全”、“更有帮助”、“文笔更好”。 | 客观性、因果性、物理性。 评估如“导航成功”、“温度达到目标”、“收益增加”。 |
| 反馈获取成本 | 高。需要人工标注、对比和排序,耗时且昂贵。 | 相对低。环境指标通常可自动采集和量化。 |
| 核心机制 | 奖励模型(Reward Model, RM)。 AI先学习预测人类偏好,然后用这个预测模型作为强化学习的奖励。 | 奖励函数(Reward Function)。 函数直接定义在环境状态上,无需中间模型。 |
| 主要应用场景 | 大语言模型(LLMs)的对齐、对话系统、内容生成、安全性/价值观对齐。 | 机器人控制、自动驾驶、游戏AI、金融交易、工业自动化、推荐系统。 |
| 数据一致性 | 易受标注者偏见影响,不具备时空一致性(不同人对同一文本的评价可能不同)。 | 具备时空一致性(如物理规律),反馈信号稳定、可重复验证。 |
RLHF聚焦于AI的“价值观”和“通用性”,或RLEF聚焦于AI的“控制”和“效率”。
三、真实世界验证的难点
- 冷启动:没有初始高质量策略,收集到的反馈噪声极大,学习停滞
- 反馈延迟:很多高价值行为要很久才显现结果(长期用户留存、战略风险),短期指标容易误导
- 对抗性环境:竞争对手会主动制造噪声、盗取数据,破坏你的学习信号
- 安全约束边界:无约束的"真实世界学习"会失控;好的系统都是"有边界的持续学习"
- 数据主权与合规:某些领域的真实数据不可永久存储或用于训练,可能也是欧洲进行 AI 领域创新比较难的地方
- 算法/架构护城河:同样数据,不同算法架构学习效率天差地别
四、建立四维模型:冷启动解法 × 安全边界 × 算法效率 × 数据治理
要建立 AI 优势,冷启动解法,安全边界,算法效率,数据治理四个方面不能有明显的短板,所以在先进算力受限,算法模型可能略微落后的情况下,坚定走开源路线,就行更多真实世界的反馈,是一条正确的道路。
标签:ai