Feb, 2018

通过贝叶斯深度 Q 网络实现高效探索

TL;DR这篇论文研究了高维情境下的强化学习,提出了两种基于乐观法和后验采样的算法来解决此问题,并扩展了该方法应用在深度强化学习上,所提出的贝叶斯深度 Q 网络通过采用贝叶斯线性回归的方法调整 Q-networks 的学习方式,使其能够充分平衡探索与执行间的权衡,更加有效地应用在 Atari 游戏中。