Oct, 2022

Avalon: 使用程序生成世界的强化学习泛化基准

TL;DR通过引入针对强化学习通用化的 Avalon 挑战集,旨在帮助深度强化学习系统更好地适应于新任务和不同的环境,该集合基于高度多样化的 3D 环境,要求机器人体现出导航、狩猎和采集等能力,在每个地图中生存下来,该挑战集不仅限于改变环境仍使用相同的奖励函数、世界动力学和动作空间, 每个任务都要求机器人在复杂程度上有所提升,Avalon 挑战集包括高效的仿真器和基准库,可用于基本检测和评分,现有的标准强化学习基线在大多数任务上都有进展,但仍远非人类表现,说明 Avalon 挑战集足够具有挑战性,可进一步推动深度强化学习通用化研究的进展。