Dec, 2018

学习解读 Atari 代理

TL;DR本文提出了使用区域感知注意力机制的深度强化学习模型,其能够利用注意力模块学习输入域中的重要区域。在推理过程中,通过反向传播梯度可视化决策最为重要的区域。该模型不仅提高了模型的可解释性,而且也带来了性能的改进。在 Atari 2600 游戏测试中,取得了良好的实验结果。