Jun, 2018

在文本游戏中计数以探索和泛化

TL;DR本论文提出了一种带有片段式探索机制的循环强化学习代理,在文本游戏环境中发现良好策略。我们在一系列生成的文本游戏中展示了有希望的结果,游戏难度各异,目标是在一系列房间的末尾收集硬币。与以往的文本强化学习方法相比,我们发现我们的代理学习到可以泛化到更难的未见过游戏的策略。