Jul, 2021

深度强化学习的期望强调痕迹学习

TL;DR本文研究将强化权重与非连续、离线数据相结合以提高样本效率,同时在 Atari 2600 电子游戏上测试了新的 X-ETD(n)算法,证明了其可扩展性和广泛适用性。