BriefGPT.xyz
Feb, 2024
批量主动学习基于人类偏好的奖励函数
Batch Active Learning of Reward Functions from Human Preferences
HTML
PDF
Erdem Bıyık, Nima Anari, Dorsa Sadigh
TL;DR
通过批次主动的偏好学习方法,本研究开发了一组新的算法,能够有效学习奖励函数并在短时间内生成少量查询,实验结果表明该算法在机器人学习中的多种任务上表现良好。
Abstract
data generation
and
labeling
are often expensive in
robot learning
.
pre
→