可提示行为：个性化多目标奖励从人类偏好

Dec, 2023

可提示行为：个性化多目标奖励从人类偏好

Promptable Behaviors: Personalizing Multi-Objective Rewards from Human Preferences

Minyoung Hwang, Luca Weihs, Chanwoo Park, Kimin Lee, Aniruddha Kembhavi...

TL;DR本文提出了一个名为 Promptable Behaviors 的新型框架，用于在复杂环境中有效个性化机器人代理以满足多样化的人类偏好。通过使用多目标强化学习训练一个适应广泛偏好的单一策略，并引入人类示范、轨迹比较的偏好反馈以及语言指令等三种方法来推断人类偏好，实验证明了该方法在个性化的目标导航和逃避导航任务中能够使代理通过提示行为来满足人类偏好的能力。

Abstract

Customizing robotic behaviors to be aligned with diverse human preferences is an underexplored challenge in the field of embodied ai. In this paper, we present Promptable Behaviors, a novel framework that facilit

embodied ai personalization robotic agents multi-objective reinforcement learning human preferences

发现论文，激发创造

深度强化学习从人类偏好中学习

本文研究了使用非专家人类偏好来定义复杂目标的强化学习系统的方法，并且证明此方法可实现许多复杂的强化学习任务，包括 Atari 游戏和模拟机器人，同时也大幅降低了人类监督成本，以及展示了本方法的灵活性，并可成功使用较短时间完成复杂的新颖行为的训练，同时也采用了前人的人类反馈信息和环境。

Jun, 2017

在线偏好中的积极奖励学习

为了实现机器人在不同环境和人类偏好中的适应性，本研究提出了在线稀疏二元偏好查询的方法，通过设计查询和决定何时呈现查询来最大化查询结果的信息价值，从而使得机器人能够快速适应实际应用场景并减轻人类专家的负担，在模拟，人类用户研究和真实机器人实验中，该方法表现优于传统技术并减少人类专家的查询负担。

Feb, 2023

从多元人类反馈中学习奖励函数：最优化整合演示和偏好

本文提出了一种从用户收集多源数据的框架，该框架结合了演示和偏好查询以学习奖励函数，可用于机器人模型中，并且在移动操作器 Fetch 上执行的模拟实验和用户研究验证了我们的方法的优越性和可用性。

Jun, 2020

从人的偏好学习通用人类先验知识，用于灵巧操纵

使用直接的人类反馈通过视频来学习通用的人类先验，实现 20 种双手机器人操作任务中 RL 策略的高效调整，不需要进行人类演示，任务无关的奖励模型通过生成多样化策略并收集人类偏好进行训练。本方法在各种任务中表现出更接近人类行为的结果，甚至适用于未见过的任务，证明了其泛化能力。

Apr, 2023

人在环路强化学习的小样本偏好学习

使用多任务学习来实现基于人类反馈的强化学习，通过将偏好模型训练在以前的任务数据上，我们仅需要很少的查询就可以在 Meta-World 中训练出具有更好效果的机器人策略模型。

Dec, 2022

利用虚拟现实演示学习个性化的、具有人类意识的机器人导航 —— 来自用户研究的证明

本研究提出了一个新的增强学习框架，通过直观的虚拟现实演示界面，训练个性化的导航控制器。用户研究表明，我们的个性化方法显著优于传统方法，学习到的控制器具有良好的泛化性能和在导航过程中反映用户偏好的能力。最后，我们将导航控制器转移到真实机器人上，保持了较好的性能。

Mar, 2022

多智体基于偏好的强化学习在人工智能团队合作中的基准测试

人机协作中基于偏好的强化学习 (PbRL) 是一个活跃的研究领域，并在单个代理人和观察者在环路场景中取得了显著的进展。然而，在人机合作的多代理强化学习框架中，在人类积极参与并表达对代理行为偏好的应用仍然是未知的。

Dec, 2023

PREDILECT: 在强化学习中利用零样本语言推理揭示偏好

基于偏好的强化学习已成为机器人学习中的一个新领域，其中人类通过表达对不同状态 - 动作序列的偏好，对机器人行为起到关键作用。为了应对机器人实际政策制定的要求，我们通过扩展每个查询收集的信息，包括偏好和可选的文本提示，解决了样本效率挑战。为了处理额外的查询信息，我们重新制定了奖励学习目标，包含灵活的重点内容 —— 那些包含相对高信息量并与预训练语言模型从文本中零 - shot 处理的特征相关的状态 - 动作对。通过模拟场景和用户研究，我们分析了反馈及其影响，揭示了我们工作的有效性。此外，收集到的集体反馈有助于在模拟的社交导航环境中对机器人进行社会合规轨迹训练。我们提供了训练策略的视频示例，网址为 https:// 此处替换为视频链接

Feb, 2024

人机协作的强韧机器人规划

本研究提出了一种基于马尔可夫决策模型的方法，针对人与机器人合作中存在的不确定性，自动推导出可能的人类行为策略，并提出了一种基于部分可观察的马尔可夫决策过程的机器人计划算法。实验结果表明该方法可实现合作任务的稳定性和高效性。

Feb, 2023

交互自主学习偏好

研究人机交互中智能机器人的学习奖励功能从而完成任务，探讨通过对多种机器人轨迹的比较反馈方式学习机器的奖励功能，包括两两比较、评分、最佳选择等，并提出主动学习技术，以优化从用户反馈中获得的期望信息，进而在自主驾驶模拟、家庭机器人、标准强化学习等领域展示了这种方法的适用性。

Oct, 2022