NIPSJul, 2017

价值预测网络

TL;DR本文提出了一种新型的深度强化学习架构 Value Prediction Network,将无模型和有模型强化学习方法集成到一个神经网络中,它通过学习一个动态模型,预测未来价值而非未来观测,实验结果表明,VPN 在需要细致计划但难以建立准确观测预测模型的随机环境中具有比无模型和有模型基线更多的优点,此外,VPN 在数个 Atari 游戏上表现优于 Deep Q-Network (DQN),具有学习良好状态表示的潜力。