ICMLMay, 2023

更大、更好、更快:具备人类效率的人类水平 Atari

TL;DR我们介绍了一个名为 BBF 的价值型强化学习智能体,在 Atari 100K 基准测试中实现了超人类的表现。BBF 依赖于缩放用于价值估计的神经网络,以及其他一些设计选择,以在样本有效的方式下实现此缩放。我们对这些设计选择进行了详细的分析,并提供了未来工作的见解。我们最后讨论了关于在 ALE 上进行样本有效的 RL 研究的目标更新。我们在此提供我们的代码和数据的公开链接。