Mar, 2023

POPGym:部分可观察强化学习基准测试

TL;DR实际应用中的强化学习(RL)通常是部分可观测的,并且需要记忆。本文提出了一个名为 POPGym 的库,包含多个具有多个困难程度的部分可观测环境和 13 种记忆模型基准实现,并在流行的 RLlib 框架上实现了高层内存 API 和记忆基线,具有可插拔性,且执行了迄今为止最大的 RL 内存模型比较。