Aug, 2023

基于Wasserstein多样性丰富正则化的层次强化学习

TL;DR通过最大化行动分布之间的Wasserstein距离,我们提出了一种新的任务不可知的正则化器(WDER)来增加子策略的多样性,实验证明我们的WDER可以提高性能和样本效率。