Jun, 2020

通过 Wasserstein 域混淆进行强化学习的视觉迁移

TL;DR提出一种新的在强化学习中用于视觉迁移的算法 WAPPO,其通过学习对齐源任务和目标任务中提取特征的分布,通过 Wasserstein 混淆目标来近似和最小化源域和目标域的特征分布之间的 Wasserstein-1 距离,并在 Visual Cartpole 和 16 个 OpenAI Procgen 环境中成功地传输了策略,优于之前的视觉传输算法。