Jul, 2015
部分可观察MDPs的深度循环Q学习
Deep Recurrent Q-Learning for Partially Observable MDPs
TL;DR本文介绍了一种新型深度强化学习模型Deep Recurrent Q-Network(DRQN),使用recurrent LSTM替换DQN的第一个后卷积全连接层,DRQN在每个决策点只看到一个帧,但可以成功地通过时间积分信息,并且在标准的Atari游戏和部分不完整的游戏中表现出与DQN相似的性能,且在不同可观察性情况下DRQN的性能也随之变化。因此,recurrency是DQN的一种可替代方式。