BriefGPT.xyz
Ask
alpha
关键词
human-guided mechanism
搜索结果 - 1
带偏好的受控多样性:朝着学习多样化的技能集合
本文提出了一种由人类辅助训练的学习机制 ——“受控多样性和偏好学习”,以确保学到的技能不仅是多样的,而且符合人类期望,在 2D 导航和 Mujoco 环境中得到了验证。
PDF
a year ago
Prev
Next