Feb, 2022

无监督技能发现的对比内在控制

TL;DR本文提出了一种无监督技能发现算法 Contrastive Intrinsic Control,它可以最大化状态转换和潜在技能向量之间的互信息。该算法对状态转换和技能之间进行对比学习,以学习行为嵌入并将这些嵌入的熵最大化作为内在奖励以促进行为多样性。我们在无监督强化学习基准上评估了我们的算法,CIC 大大提高了适应效率,在无监督技能发现方法方面优于以前的方法 1.79 倍,并且整体探索算法效果比第二名提高 1.18 倍。