IJCAIDec, 2017

假设密度过滤 Q 学习

TL;DR本文提出了一种新的基于 Bayesian 思想的离线 TD 学习方法 ADFQ,采用在线贝叶斯推断方法 Assumed Density Filtering 更新对状态 - 动作值(Q 值)的信念,并通过神经网络进行扩展,实验结果表明 ADFQ 在 Atari 2600 游戏等各种情况下都能优于其他基于 Bayesian 的 RL 算法,针对高度随机的领域或具有大动作空间的领域具有明显的改进。