大模型的优势也来自于真实世界反馈的密度与一致性 - 从强化学习角度理解蔡崇信港大演讲
2025年11月5日,阿里巴巴集团董事长蔡崇信在港大有一场演讲,他提出了中国在AI领域的四个优势:能源成本、数据中心基建、AI 人才红利,为解决算力受限进行的系统级优化我想从强化学习的角度,来理解演讲中的一些观点:核心观点:场景就是 AI 的强化学习反馈AI 的优势来自真实世界反馈的密度与一致性——场景越多,强化学习越强,壁垒越高一、为什么真实世界反馈重要不可伪造性:真实用户行为、系统日志、交易结果比人工模拟更可信时空一致性:随时间积累的连续数据比碎片化标注更能训练出稳健策略负样本价值:失败案例比成功样本更稀缺,也更有学习价值隐形知识数字化:通过海量的真实反馈,AI能通过“试错-奖励”机...