NIPSNov, 2017

变分深度 Q 网络

TL;DR本文提出一种框架,通过利用强大的变分推断子程序来直接处理深度 Q 网络(DQN)中值函数参数的概率分布,建立了我们提出的代理目标与变分推断损失之间的等价关系,并在大规模链式马尔科夫决策过程(MDP)上实现了高效的探索和表现。