IJCAIDec, 2017
假设密度过滤 Q 学习
Assumed Density Filtering Q-learning
Heejin Jeong, Clark Zhang, George J. Pappas, Daniel D. Lee
TL;DR本文提出了一种新的基于 Bayesian 思想的离线 TD 学习方法 ADFQ,采用在线贝叶斯推断方法 Assumed Density Filtering 更新对状态 - 动作值(Q 值)的信念,并通过神经网络进行扩展,实验结果表明 ADFQ 在 Atari 2600 游戏等各种情况下都能优于其他基于 Bayesian 的 RL 算法,针对高度随机的领域或具有大动作空间的领域具有明显的改进。