Dec, 2023

可提示行为:个性化多目标奖励从人类偏好

TL;DR本文提出了一个名为 Promptable Behaviors 的新型框架,用于在复杂环境中有效个性化机器人代理以满足多样化的人类偏好。通过使用多目标强化学习训练一个适应广泛偏好的单一策略,并引入人类示范、轨迹比较的偏好反馈以及语言指令等三种方法来推断人类偏好,实验证明了该方法在个性化的目标导航和逃避导航任务中能够使代理通过提示行为来满足人类偏好的能力。