Mar, 2023

带偏好的受控多样性:朝着学习多样化的技能集合

TL;DR本文提出了一种由人类辅助训练的学习机制 ——“受控多样性和偏好学习”,以确保学到的技能不仅是多样的,而且符合人类期望,在 2D 导航和 Mujoco 环境中得到了验证。