Oct, 2022

利用学习模型实现高效的离线策略优化

TL;DR通过研究,本文提出使用一种规范化的一步前瞻方法来解决MuZero Unplugged在离线强化学习设置下可能存在的一些问题,并在BSuite环境中进行了广泛的实证研究,得到了稳定的结果,并在大规模的Atari基准测试中取得了优异的表现。