进化与强化学习:在热力学箭头下的同源回响
一、强化学习 vs 进化论当我在思考如何改进 prompt 写法的时候,想到了一组有趣的类比:强化学习中,有三个关键组成部分:算法、环境和先验知识生物进化论中,有三个关键的概念:自然选择、环境和基因强化学习算法,似乎是在模拟自然选择的数学本质,我们设定的奖励函数,可以看作是进化剪刀具体如下:算法 ≈ 自然选择:都是迭代优化的「引擎」梯度下降(RL) vs 适者生存(进化)环境反馈/压力:提供优化方向的导数信息先验知识 ≈ 基因:预训练模型(RL)如同进化中的保守基因序列在线学习(RL)对应表观遗传修饰所以,强化学习和进化论,似乎在解同一个优化问题:强化学习用反向传播计算高阶导数进化论用世...