Jun, 2019

指导策略优化的行为评分学习

TL;DR通过使用Wasserstein距离在新定义的潜在行为空间中比较强化学习策略,我们引入了一种新方法,展示了通过使用Wasserstein距离的二元制定,可以学习策略行为的得分函数,用于引导/远离所需/不需要的行为,并将正则化项加入两个新的策略训练算法中。在一系列具有挑战性的环境中展示了比现有方法更好的表现。同时我们提供开源演示。