Apr, 2023
使用被动 Langevin 动态的自适应逆强化学习的有限样本界
Finite-Sample Bounds for Adaptive Inverse Reinforcement Learning using Passive Langevin Dynamics
Luke Snow, Vikram Krishnamurthy
TL;DR本文提供了一种用于反向学习的被动随机梯度 Langevin 动力学 (PSGLD) 算法的有限样本分析,并提供了 2-Wasserstein 距离的有限时间界限来衡量算法和基于前向学习的随机梯度算法之间的性能。