Jun, 2023

强化学习中的扩散过程奖励塑造

TL;DR本研究利用随机热力学和系统动力学的原理,探索通过扩散过程进行奖励塑造的方法,为探索 - 开发权衡提供了一个优雅的框架,并揭示了信息熵、随机系统动力学之间的关系及其对熵产生的影响,从而构建了一个双重框架,可作为派生有效策略的最大熵程序或计算信息成本和利益的修改成本优化程序的解释,为 RL 中的信息导向公式提供了新的视角。