EMNLPSep, 2020
基于文本游戏的上下文相关观测值修剪引导的自适应 Q 学习
Bootstrapped Q-learning with Context Relevant Observation Pruning to Generalize in Text-based Games
Subhajit Chaudhury, Daiki Kimura, Kartik Talamadupula, Michiaki Tatsubori, Asim Munawar...
TL;DR提出了一种基于 RL 的 CREST 方法,通过去除观测文本中的无关词汇来提高 RL 在 Text-Based Games 中的泛化性能,实验表明该方法可以使用更少的训练数据来解决新的游戏。