May, 2023

可证明且实用:通过 Langevin Monte Carlo 实现强化学习中的高效探索

TL;DR本文提出了一种基于 Thompson 采样的可扩展和有效的强化学习策略,通过使用 Langevin Monte Carlo 从其后验分布中直接抽取 Q 函数,该方法只需进行嘈杂的梯度下降更新即可学习 Q 函数的精确后验分布,在深度 RL 中易于部署,取得了优于或类似于 Atari57 套件上现有深度 RL 算法的结果。