Mar, 2022

何时出发,何时探索:后探索对内在动机的益处

TL;DR本文对Go-Explore论文中未解决的问题进行了系统研究,通过对一系列MiniGrid环境的实验发现,采用后探索策略能够显著提高强化学习的性能,并利用新的自适应方法进一步提高了效果,证明了自适应后探索是强化学习探索研究的一个有前途的方向。