May, 2020

基于主动偏好的高斯过程回归用于奖励学习

TL;DR本文介绍了一种基于用户反馈的偏好学习方法,利用高斯过程 (GP) 对奖励函数进行建模,在不增加结构限制并避免数据不足和刚性的问题的情况下,仅通过比较轨迹即可有效学习机器人任务的表达性奖励函数。