Jun, 2020

从多元人类反馈中学习奖励函数: 最优化整合演示和偏好

TL;DR本文提出了一种从用户收集多源数据的框架,该框架结合了演示和偏好查询以学习奖励函数,可用于机器人模型中,并且在移动操作器 Fetch 上执行的模拟实验和用户研究验证了我们的方法的优越性和可用性。