Feb, 2023

在线偏好中的积极奖励学习

TL;DR为了实现机器人在不同环境和人类偏好中的适应性,本研究提出了在线稀疏二元偏好查询的方法,通过设计查询和决定何时呈现查询来最大化查询结果的信息价值,从而使得机器人能够快速适应实际应用场景并减轻人类专家的负担,在模拟,人类用户研究和真实机器人实验中,该方法表现优于传统技术并减少人类专家的查询负担。