Oct, 2018

批量的基于偏好的奖励函数学习

TL;DR本文介绍了一种新的算法,批量主动偏好学习,它使用尽可能少的数据样本进行有效的奖励函数学习,并具有较短的查询生成时间。我们为批量主动学习问题引入了几个近似,并为我们的算法的收敛提供了理论保证。通过在模拟中进行各种机器人任务的实验,我们的结果表明我们的批量主动学习算法仅需要少量计算时间短的查询。最后,我们将展示我们的算法在学习人类用户喜好的研究中的应用。