Nov, 2018

基于轨迹的球迷宫游戏学习

TL;DR本研究介绍了一种简单的方法来应用轨迹学习方法,以增加深度强化学习方法的样本效率,该方法应用于文献中最近引入的具有挑战性的球迷宫游戏,并展示了通过使用模拟器为模型生成有限数量的轨迹,可以在不使用人工生成轨迹的情况下,获得约2-3倍的学习加速度,同时讨论了在使用基于轨迹的学习处理非常稀疏的奖励函数时面临的一些挑战。