特征扩张奖励学习：重新思考人类输入

Jun, 2020

特征扩张奖励学习：重新思考人类输入

Feature Expansive Reward Learning: Rethinking Human Input

Andreea Bobu, Marius Wiggert, Claire Tomlin, Anca D. Dragan

TL;DR本文提出了一种人与机器人交互的新方式，通过以人类指导机器人从高表达特征的状态到不表达该特征的状态的方法来学习机器人掌握的特征，然后将其集成到奖励函数中，大大降低了样本复杂度并提高了奖励的泛化性能。

Abstract

In collaborative human-robot scenarios, when a person is not satisfied with how a robot performs a task, they can intervene to correct it. reward learning methods enable the robot to adapt its reward function online based on such human input. However, this online adaptation requires lo

发现论文，激发创造

人机协作任务的高效模型学习

该研究提出了一个利用无人干预的关节行动示范学习人类用户模型的框架，以便机器人能够计算出一项与人类的合作任务相适应的鲁棒策略。该框架利用无监督学习算法将示范动作序列聚集到不同的人类类型中，并使用逆强化学习算法学习代表每种类型的奖励函数。最后，该方法得到了验证，并在实验室中演示了同一个人类与小型工业机器人配合完成任务的可能性。

May, 2014

无监督感知奖励用于模仿学习

利用深度模型学习中间视觉表示的抽象能力来从少量的演示序列中快速推断知觉奖励函数，以便在真实世界环境中使用强化学习智能体执行任务。

Dec, 2016

从多元人类反馈中学习奖励函数: 最优化整合演示和偏好

本文提出了一种从用户收集多源数据的框架，该框架结合了演示和偏好查询以学习奖励函数，可用于机器人模型中，并且在移动操作器 Fetch 上执行的模拟实验和用户研究验证了我们的方法的优越性和可用性。

Jun, 2020

通过学习特征诱导奖励学习中的结构

本研究探究了奖励学习在机器人自适应行为学习中的应用，结合人类输入实现对特征的分步学习，并应用于机器人操作中。该方法在提高奖励学习效率和推广性方面优于传统的奖励学习方法。

Jan, 2022

使用神经网络奖励函数的开放式强化学习

该研究提出了一种使用神经网络编码奖励函数的方法，通过迭代训练，以鼓励更复杂的行为，实现在高维度机器人和像素级环境下的无监督学习，从而学习包括前空翻和单腿奔跑等丰富的技能。

Feb, 2022

交互自主学习偏好

研究人机交互中智能机器人的学习奖励功能从而完成任务，探讨通过对多种机器人轨迹的比较反馈方式学习机器的奖励功能，包括两两比较、评分、最佳选择等，并提出主动学习技术，以优化从用户反馈中获得的期望信息，进而在自主驾驶模拟、家庭机器人、标准强化学习等领域展示了这种方法的适用性。

Oct, 2022

通过观察人类学习机器人操作的奖励函数

该研究通过使用未标注的人类操作视频来学习机器人操作策略的任务不可知奖励函数，并采用时间对比学习得到的嵌入空间中的距离以及直接时间回归来评分从而实现在各种任务上重复使用一个模型，从而能够在多个操纵任务上加速训练，而无需从机器人环境中获得先验数据，也无需使用特定于任务的人类演示数据。

Nov, 2022

机器人的精细调整简化：自主现实世界强化学习的预训练奖励和策略

通过使用预训练和微调范式，我们引入RoboFuME系统，利用网络上的数据和模型，允许机器人在几乎没有人工干预的情况下学习新任务，并通过利用校准的离线强化学习技术和预训练的视觉语言模型构建健壮的奖励分类器，在线进行微调并提供奖励信号，从而达到最小化人工干预的目标。在五个真实机器人操作任务和模拟实验中，我们的方法表现出色。

Oct, 2023

自适应语言引导的对比解释抽象

本研究解决了机器人学习中如何从有限的人类示范中推断有意义的奖励函数的问题，特别是在环境特征识别方面。提出的ALGAE方法通过语言模型 iteratively 识别重要特征，并利用逆强化学习技术为这些特征赋予权重。实验表明，ALGAE能够在解释性特征上学习通用的奖励函数，并且能够在缺少特征时自行提取，极大地提高了学习效率。

Sep, 2024

自适应语言引导的对比解释抽象

本研究解决了当前机器人学习中从人类示范推断奖励函数的特定问题，特别是如何有效识别环境相关特征。提出的ALGAE方法通过将语言模型与传统逆强化学习技术相结合，能够在少量示范中学习出可解释的、通用的奖励函数，显著提升了学习效率和效果。关键发现是，ALGAE可以自主识别缺失特征并加以定义，为快速获取用户行为的丰富表示提供了可能。

Sep, 2024