Oct, 2022

具有不完美专家演示的贝叶斯 Q-learning

TL;DR本文提出一种使用少量专家演示来加速 Q-learning 的算法,通过减少对专家数据的依赖程度和逐步降低不相关数据的使用,实现了对数据的更高效利用,实验结果表明该方法在大多数情况下可以比 Hester 等人的演示深度 Q-learning 方法获得更好的结果。