Feb, 2023

内部奖励的强化学习

TL;DR本文介绍了一种称为内部奖励强化学习的学习环境,在该环境下奖励信号不是直接来自环境,而是由一个与策略一起被优化的判别器产生。通过理论和实验证明了引入特定奖励函数可以减缓噪声带来的影响,使得训练过程更加稳定快速,性能更好。