Dec, 2017
关于 Wasserstein 强化学习和 Fokker-Planck 方程
On Wasserstein Reinforcement Learning and the Fokker-Planck equation
Pierre H. Richemond, Brendan Maginnis
TL;DR本篇研究提出了一种基于 Wasserstein 距离限制的策略梯度方法,并通过研究发现在 Wasserstein 距离上小步长时,策略的动态特性遵循 Fokker-Planck 方程,能够解释概率匹配设置下的收敛特性。