Jun, 2020

如何避免被 Grue 吞噬:构建探索策略应对文本世界

TL;DR我们介绍了 Q*Bert 和 MC!Q*BERT 两个代理,在自然语言状态 - 动作空间中通过回答问题构建知识图谱来提高样本效率,并通过探索策略和内在动机检测瓶颈来有效探索空间,在九个文本游戏中超越了当前最先进的方法,包括 Zork 游戏。