Jul, 2015

部分可观察 MDPs 的深度循环 Q 学习

TL;DR本文介绍了一种新型深度强化学习模型 Deep Recurrent Q-Network (DRQN),使用 recurrent LSTM 替换 DQN 的第一个后卷积全连接层,DRQN 在每个决策点只看到一个帧,但可以成功地通过时间积分信息,并且在标准的 Atari 游戏和部分不完整的游戏中表现出与 DQN 相似的性能,且在不同可观察性情况下 DRQN 的性能也随之变化。因此,recurrency 是 DQN 的一种可替代方式。