Dec, 2021

DR3:基于价值的深度强化学习需要明确的正则化

TL;DR本研究探讨了隐式正则化在深度增强学习中的应用。我们的分析表明,隐式正则化可能会导致总体泛化性能下降和特征表示的变形。这篇论文通过提出一种基于 DR3 的新正则化方法来解决这个隐式正则化问题,并在 Atari 2600 游戏、D4RL 领域和从图像中学习的机器人操作等领域取得了良好的性能和稳定性。