Jun, 2023

Katakomba: 数据驱动 NetHack 的工具和基准测试

TL;DR本文中,我们介绍了 NetHack 这个强化学习研究领域的前沿,提到了一个新的入手点,即使用类似于机器人、推荐系统等其他领域的离线强化学习预收集数据集来取得突破,并提出了该方向目前存在三个障碍,即工具、实现和基准测试。为了解决这个问题,我们开发了一个开源库,提供了流程基本原则、预定义的 D4RL 风格任务,无杂项的基准实现以及可靠的评估工具和与云同步的配置和日志。