ICMLApr, 2018

模型驱动增强学习中的 Lipschitz 连续性

TL;DR本文研究了 Lipschitz 连续模型在基于模型的强化学习中的影响。我们提供了一个新的多步预测误差界限,用 Wasserstein 度量来量化误差。我们证明了 Lipschitz 模型所引起的价值函数估计误差界限,并表明估计值函数本身是 Lipschitz 的。最后,我们提供了实证结果,表明控制神经网络模型的 Lipschitz 常数的好处。