ICMLMay, 2023
更大、更好、更快:具备人类效率的人类水平 Atari
Bigger, Better, Faster: Human-level Atari with human-level efficiency
Max Schwarzer, Johan Obando-Ceron, Aaron Courville, Marc Bellemare, Rishabh Agarwal...
TL;DR我们介绍了一个名为 BBF 的价值型强化学习智能体,在 Atari 100K 基准测试中实现了超人类的表现。BBF 依赖于缩放用于价值估计的神经网络,以及其他一些设计选择,以在样本有效的方式下实现此缩放。我们对这些设计选择进行了详细的分析,并提供了未来工作的见解。我们最后讨论了关于在 ALE 上进行样本有效的 RL 研究的目标更新。我们在此提供我们的代码和数据的公开链接。