Apr, 2023

通过动态感知和无重置学习在物理机器人上实现质量多样性优化

TL;DR通过 Reset-Free QD 算法和动力学模型,在物理机器人上直接学习控制器,以提高样本效率和生成最佳存档,从而使物理四足机器人在两小时内学习到行为技能库。