Feb, 2024

PREDILECT: 在强化学习中利用零样本语言推理揭示偏好

TL;DR基于偏好的强化学习已成为机器人学习中的一个新领域,其中人类通过表达对不同状态 - 动作序列的偏好,对机器人行为起到关键作用。为了应对机器人实际政策制定的要求,我们通过扩展每个查询收集的信息,包括偏好和可选的文本提示,解决了样本效率挑战。为了处理额外的查询信息,我们重新制定了奖励学习目标,包含灵活的重点内容 —— 那些包含相对高信息量并与预训练语言模型从文本中零 - shot 处理的特征相关的状态 - 动作对。通过模拟场景和用户研究,我们分析了反馈及其影响,揭示了我们工作的有效性。此外,收集到的集体反馈有助于在模拟的社交导航环境中对机器人进行社会合规轨迹训练。我们提供了训练策略的视频示例,网址为 https:// 此处替换为视频链接