Apr, 2022

通过无重置多样性优化实现自主步行学习

TL;DR本研究提出了 Reset-Free Quality-Diversity optimization (RF-QD) 算法来实现具有多样性和高性能技能的行为副本的自主学习,我们在 Dynamics-Aware Quality-Diversity (DA-QD) 基础上引入了一种行为选择策略,并演示了通过训练自我重置的步态行走任务,可以高效学习到具有多样性和一定安全性的行走技能。