Feb, 2018
使用 Wasserstein 距离正则化的强化学习,应用于多策略学习
Reinforcement Learning with Wasserstein Distance Regularisation, with Applications to Multipolicy Learning
Mohammed Amin Abdullah, Aldo Pacchiano, Moez Draief
TL;DR该研究描述了 Wasserstein 距离应用于强化学习中的情形,通过量化不同策略的分布之间的差异,使用 Wasserstein 正则化器学习多个不同的策略。