Feb, 2018

使用 Wasserstein 距离正则化的强化学习,应用于多策略学习

TL;DR该研究描述了 Wasserstein 距离应用于强化学习中的情形,通过量化不同策略的分布之间的差异,使用 Wasserstein 正则化器学习多个不同的策略。