BriefGPT.xyz
Feb, 2023
在线偏好中的积极奖励学习
Active Reward Learning from Online Preferences
HTML
PDF
Vivek Myers, Erdem Bıyık, Dorsa Sadigh
TL;DR
为了实现机器人在不同环境和人类偏好中的适应性,本研究提出了在线稀疏二元偏好查询的方法,通过设计查询和决定何时呈现查询来最大化查询结果的信息价值,从而使得机器人能够快速适应实际应用场景并减轻人类专家的负担,在模拟,人类用户研究和真实机器人实验中,该方法表现优于传统技术并减少人类专家的查询负担。
Abstract
robot policies
need to adapt to
human preferences
and/or new environments. Human experts may have the
domain knowledge
required to help ro
→