BriefGPT.xyz
Ask
alpha
关键词
expressive interface
搜索结果 - 1
基于人类偏好和步骤级解释的训练偏好驱动强化学习
人在环路强化学习中提供了一种可以让非专家用户通过各种界面进行训练的方法。我们提出了一种新的基于偏好的学习方法,为人们提供了更富表现力的界面,以便其表达对轨迹的偏好,并提供了解释以提高学习速度。
PDF
2 months ago
Prev
Next