May, 2023

行为对比学习:无监督技能发现

TL;DR本文提出了一种基于对比学习的无监督技能发现方法,通过得到相似的行为来表征同一种技能, 并使得不同技能产生不同的行为,同时增加状态熵以获得更好的状态覆盖率,实验结果表明,该方法能够产生各种远程技能,并在下游任务中达到有竞争力的表现。