NIPSSep, 2018

基于模型的正则化方法和转码网络的深度强化学习

TL;DR本文提出了一种基于价值的深度强化学习的新的优化目标,通过增加模型学习组件来扩展传统的 DQN,以产生一个转码器网络,学习环境模型和强化学习问题共享结构,该模型的预测误差被包含在基本 DQN 损失中作为额外的正则化项,改进了采样效率和性能。在 Atari 基准测试的 20 个游戏中,我们实验证明了我们的假设,获得了比基础 DQN 更好的结果。