BriefGPT.xyz
Ask
alpha
关键词
pairwise queries
搜索结果 - 1
在线偏好中的积极奖励学习
为了实现机器人在不同环境和人类偏好中的适应性,本研究提出了在线稀疏二元偏好查询的方法,通过设计查询和决定何时呈现查询来最大化查询结果的信息价值,从而使得机器人能够快速适应实际应用场景并减轻人类专家的负担,在模拟,人类用户研究和真实机器人实验
→
PDF
a year ago
Prev
Next