May, 2023

在球面上无监督地发现连续技能

TL;DR本文提出了一种称为 DISCS 的学习方法,通过最大化技能和状态间的互信息,学习一种可能的无数不同技能,其中每一个技能对应于球面上的连续值,并且通过在 MuJoCo Ant 机器人控制环境中的实验显示,DISCS 可以比其他方法学习到更多元化的技能。