Aug, 2020

深度强化学习中目标网络的 t-Soft 更新

TL;DR本文提出了一种新的强化学习(DRL)目标网络的鲁棒更新规则,以替代传统的指数移动平均更新规则,并通过类比于指数移动平均和正态分布之间的关系,基于学生 t 分布衍生了一种 t-soft 更新方法。通过 PyBullet 机器人模拟 DRL 的训练过程,我们发现,使用 t-soft 更新的在线演员 - 评论家算法在得到的回报和 / 或其方差方面优于传统方法。