Oct, 2022
具有不完美专家演示的贝叶斯 Q-learning
Bayesian Q-learning With Imperfect Expert Demonstrations
Fengdi Che, Xiru Zhu, Doina Precup, David Meger, Gregory Dudek
TL;DR本文提出一种使用少量专家演示来加速 Q-learning 的算法,通过减少对专家数据的依赖程度和逐步降低不相关数据的使用,实现了对数据的更高效利用,实验结果表明该方法在大多数情况下可以比 Hester 等人的演示深度 Q-learning 方法获得更好的结果。