Mar, 2024

深度强化学习的快速价值追踪

TL;DR我们的研究利用卡尔曼滤波范式引入了一种称为 Langevinized Kalman Temporal-Difference (LKTD) 的新颖且可扩展的采样算法,用于深度强化学习。通过 LKTD 算法,我们有效地从深度神经网络参数的后验分布中抽样,而且我们证明了在温和条件下,LKTD 算法生成的后验样本收敛到一个稳定分布。这种收敛不仅使我们能够量化价值函数和模型参数相关的不确定性,而且在训练阶段中允许我们监控这些不确定性。LKTD 算法为更加强健和适应性的强化学习方法打开了道路。