May, 2019

基于质量多样性与无监督描述符的自主技能发现

TL;DR本文提出一种将 Quality-Diversity 优化算法与非监督降维算法相结合来自动定义行为描述符的方法,此方法可用于机器人学习行为库并在与环境交互时自主发现其能力范围,通过实验结果表明,该方法优于已有的非监督方法,机器人学习到的行为丰富多样。