Mar, 2023
带偏好的受控多样性:朝着学习多样化的技能集合
Controlled Diversity with Preference : Towards Learning a Diverse Set of Desired Skills
Maxence Hussonnois, Thommen George Karimpanal, Santu Rana
TL;DR本文提出了一种由人类辅助训练的学习机制 ——“受控多样性和偏好学习”,以确保学到的技能不仅是多样的,而且符合人类期望,在 2D 导航和 Mujoco 环境中得到了验证。