ICLRJun, 2019

深度循环神经网络结构预测中的状态别名研究

TL;DR通过实验和分析,本论文研究了基于循环神经网络 (RNNs) 代理的表示学习,尤其是在政策梯度和基于价值的方法下对循环神经网络进行了训练。我们展示了当使用政策梯度进行训练时,循环神经网络往往无法学习到导致最优策略的状态表示。这一现象被称为状态别名问题,我们通过实验表明它在政策梯度下出现,同时在迷宫设置和更复杂的文本游戏上提出了训练 RNN 代理的建议。