EMNLPSep, 2020

基于文本游戏的上下文相关观测值修剪引导的自适应 Q 学习

TL;DR提出了一种基于 RL 的 CREST 方法,通过去除观测文本中的无关词汇来提高 RL 在 Text-Based Games 中的泛化性能,实验表明该方法可以使用更少的训练数据来解决新的游戏。