NIPSNov, 2016

记忆镜头:一个代理程序使用了多少内存?

TL;DR提出一种新方法来研究强化学习策略所使用的内部记忆,通过估计行为历史与代理人当前动作之间的互信息来估计相关的过去信息量,并在被动设置下进行这种估计。此外,通过显示它产生了一个实现无关的最小内存容量下界,为我们的方法提供了理论上的理由。作者对对 DQN 政策上的 atari 游戏做出评估,并展示了在 49 个游戏中不同的记忆使用情况。