May, 2021

强化学习中的对抗内在动机

TL;DR论文研究了使用 Wasserstein-1 距离优化策略在强化学习特别是目标导向学习中的应用,提出了一种基于 Adversarial Intrinsic Motivation 的算法并应用于 Hindsight Experience Replay 以加速学习。