Dec, 2017

关于 Wasserstein 强化学习和 Fokker-Planck 方程

TL;DR本篇研究提出了一种基于 Wasserstein 距离限制的策略梯度方法,并通过研究发现在 Wasserstein 距离上小步长时,策略的动态特性遵循 Fokker-Planck 方程,能够解释概率匹配设置下的收敛特性。