从在线协作反馈中学习操作任务的偏好

Jan, 2016

从在线协作反馈中学习操作任务的偏好

Learning Preferences for Manipulation Tasks from Online Coactive Feedback

Ashesh Jain, Shikhar Sharma, Thorsten Joachims, Ashutosh Saxena

TL;DR本文提出了一种在线无监督学习框架，可以在包容环境下的多种对象和人类互动中学习机器人的移动路径偏好，并在家政和菜店两种环境中测试了算法，结果表明只需几分钟即可训练机器人。

Abstract

We consider the problem of learning preferences over trajectories for mobile manipulators such as personal robots and assembly line robots. The preferences we learn are more intricate than simple geometric constraints on trajectories; they are rather governed by the surrounding context of various objects and human interactions in the environment. We propose

mobile manipulators trajectory preferences coactive learning contextual environments incremental feedback

发现论文，激发创造

通过迭代改进学习机械臂的运动轨迹偏好

本文介绍了一种基于协同在线学习框架的方法，通过给机器人提供用户轨迹的偏好反馈而不是直接演示最优轨迹来教授其物体操作任务，理论上说明了该方法的可行性并在多项超市结帐任务中验证了其普适性。

Jun, 2013

在线偏好中的积极奖励学习

为了实现机器人在不同环境和人类偏好中的适应性，本研究提出了在线稀疏二元偏好查询的方法，通过设计查询和决定何时呈现查询来最大化查询结果的信息价值，从而使得机器人能够快速适应实际应用场景并减轻人类专家的负担，在模拟，人类用户研究和真实机器人实验中，该方法表现优于传统技术并减少人类专家的查询负担。

Feb, 2023

基于协同学习的在线结构化预测

我们提出了协同学习作为一个学习系统和人类用户之间交互的模型，其共同目标是为用户提供最大的效用结果。我们证明这种反馈可以从可观察的用户行为中推断出来，并且我们展示了在电影推荐任务和 Web 搜索排名任务中协同学习算法的应用。

May, 2012

使用引导式策略搜索学习接触丰富型操作技能

本文介绍了一种用于学习具有高度通用策略表示的动态操作行为的新方法，该方法可以扩展最近开发的策略搜索方法，并使用迭代重新拟合的时间变化线性模型来学习所需运动技能的一组轨迹，然后将这些轨迹统一到一个单一的控制策略中。

Jan, 2015

从人的偏好学习通用人类先验知识，用于灵巧操纵

使用直接的人类反馈通过视频来学习通用的人类先验，实现 20 种双手机器人操作任务中 RL 策略的高效调整，不需要进行人类演示，任务无关的奖励模型通过生成多样化策略并收集人类偏好进行训练。本方法在各种任务中表现出更接近人类行为的结果，甚至适用于未见过的任务，证明了其泛化能力。

Apr, 2023

在线巴累托最优决策中的主动推理

本研究旨在引入一种新颖的多目标强化学习框架，确保任务的安全执行，优化目标之间的权衡，并符合用户的偏好。该框架包含两个主要层次：多目标任务规划器和高层选择器。通过案例研究和基准测试，证明了我们的框架在操作和移动机器人方面优于其他方法，并且能够学习多个最优权衡解决方案，符合用户的偏好，并允许用户调整优化权衡的平衡。

Jun, 2024

PlanIt：基于众包的学习路径规划方法

本文提出了一个用于学习机器人路径偏好的方法，通过众包系统 PlanIt 获取用户反馈，并使用这些反馈学习模型参数，从而在人类环境中生成优化路径，实验结果表明该方法较为有效。

Jun, 2014

从多元人类反馈中学习奖励函数：最优化整合演示和偏好

本文提出了一种从用户收集多源数据的框架，该框架结合了演示和偏好查询以学习奖励函数，可用于机器人模型中，并且在移动操作器 Fetch 上执行的模拟实验和用户研究验证了我们的方法的优越性和可用性。

Jun, 2020

交互自主学习偏好

研究人机交互中智能机器人的学习奖励功能从而完成任务，探讨通过对多种机器人轨迹的比较反馈方式学习机器的奖励功能，包括两两比较、评分、最佳选择等，并提出主动学习技术，以优化从用户反馈中获得的期望信息，进而在自主驾驶模拟、家庭机器人、标准强化学习等领域展示了这种方法的适用性。

Oct, 2022

探索因果世界：通过知识转移和课程学习增强机器人操纵能力

使用强化学习训练三指机械臂的复杂任务，通过 fine-tuning 和 curriculum learning 的知识迁移策略提高学习效率和效果，并研究两种学习策略的关键因素及其效果，以应用于更广泛的基于学习的工程应用。

Mar, 2024