Apr, 2023

使用被动 Langevin 动态的自适应逆强化学习的有限样本界

TL;DR本文提供了一种用于反向学习的被动随机梯度 Langevin 动力学 (PSGLD) 算法的有限样本分析,并提供了 2-Wasserstein 距离的有限时间界限来衡量算法和基于前向学习的随机梯度算法之间的性能。