May, 2023
可证明且实用:通过 Langevin Monte Carlo 实现强化学习中的高效探索
Provable and Practical: Efficient Exploration in Reinforcement Learning
via Langevin Monte Carlo
TL;DR本文提出了一种基于Thompson采样的可扩展和有效的强化学习策略,通过使用Langevin Monte Carlo从其后验分布中直接抽取Q函数,该方法只需进行嘈杂的梯度下降更新即可学习Q函数的精确后验分布,在深度RL中易于部署,取得了优于或类似于Atari57套件上现有深度RL算法的结果。