通过迭代改进学习机械臂的运动轨迹偏好

NIPSJun, 2013

通过迭代改进学习机械臂的运动轨迹偏好

Learning Trajectory Preferences for Manipulators via Iterative Improvement

Ashesh Jain, Brian Wojcik, Thorsten Joachims, Ashutosh Saxena

TL;DR本文介绍了一种基于协同在线学习框架的方法，通过给机器人提供用户轨迹的偏好反馈而不是直接演示最优轨迹来教授其物体操作任务，理论上说明了该方法的可行性并在多项超市结帐任务中验证了其普适性。

Abstract

We consider the problem of learning good trajectories for manipulation tasks. This is challenging because the criterion defining a good trajectory varies with users, tasks and environments. In this paper, we propose a co-active online learning framework for teaching robots the preferen

robotic learning object manipulation user preferences co-active feedback online learning

发现论文，激发创造

从在线协作反馈中学习操作任务的偏好

本文提出了一种在线无监督学习框架，可以在包容环境下的多种对象和人类互动中学习机器人的移动路径偏好，并在家政和菜店两种环境中测试了算法，结果表明只需几分钟即可训练机器人。

Jan, 2016

在线偏好中的积极奖励学习

为了实现机器人在不同环境和人类偏好中的适应性，本研究提出了在线稀疏二元偏好查询的方法，通过设计查询和决定何时呈现查询来最大化查询结果的信息价值，从而使得机器人能够快速适应实际应用场景并减轻人类专家的负担，在模拟，人类用户研究和真实机器人实验中，该方法表现优于传统技术并减少人类专家的查询负担。

Feb, 2023

使用引导式策略搜索学习接触丰富型操作技能

本文介绍了一种用于学习具有高度通用策略表示的动态操作行为的新方法，该方法可以扩展最近开发的策略搜索方法，并使用迭代重新拟合的时间变化线性模型来学习所需运动技能的一组轨迹，然后将这些轨迹统一到一个单一的控制策略中。

Jan, 2015

PlanIt：基于众包的学习路径规划方法

本文提出了一个用于学习机器人路径偏好的方法，通过众包系统 PlanIt 获取用户反馈，并使用这些反馈学习模型参数，从而在人类环境中生成优化路径，实验结果表明该方法较为有效。

Jun, 2014

通过轨迹生成学习通用工具使用技能

通过生成模型学习工具使用轨迹和对应工具位姿的序列，以实现对变形物体的操纵，进而提高自治系统在常见任务（如烹饪和清洁）中的智能水平。

Sep, 2023

在线巴累托最优决策中的主动推理

本研究旨在引入一种新颖的多目标强化学习框架，确保任务的安全执行，优化目标之间的权衡，并符合用户的偏好。该框架包含两个主要层次：多目标任务规划器和高层选择器。通过案例研究和基准测试，证明了我们的框架在操作和移动机器人方面优于其他方法，并且能够学习多个最优权衡解决方案，符合用户的偏好，并允许用户调整优化权衡的平衡。

Jun, 2024

基于表示学习的自然机器人手臂轨迹生成

通过自我监督的模仿学习方法，使用自回归时空图神经网络进行辅助饮水任务，利用多样化的人体运动轨迹数据来生成适合 UR5e 机器臂的自然而又功能性的饮水运动轨迹。

Sep, 2023

从人的偏好学习通用人类先验知识，用于灵巧操纵

使用直接的人类反馈通过视频来学习通用的人类先验，实现 20 种双手机器人操作任务中 RL 策略的高效调整，不需要进行人类演示，任务无关的奖励模型通过生成多样化策略并收集人类偏好进行训练。本方法在各种任务中表现出更接近人类行为的结果，甚至适用于未见过的任务，证明了其泛化能力。

Apr, 2023

使用参数化操作基元学习外在灵巧性

通过学习层次化强化学习，我们能够利用环境改变目标物体的姿态，无需物体检测、姿态估计或手动设计控制器，从而成功地完成 98% 的实验任务。

Oct, 2023

从单个演示到机器人操作的粗到细模仿学习

本文介绍了一种用于视觉模仿学习的简单方法，可以从一个人类演示中学习机器人操作任务，而无需先前了解与对象的交互情况，并且可以通过自监督学习进行训练。在实现过程中，该方法将模仿学习建模为状态估计问题，以目标交互开始时末端执行器的姿态作为状态，在自监督训练过程中让末端执行器的摄像头围绕对象自动移动。最终，在测试时，机器人通过一条线性路径移动到预测的状态，然后简单地重放演示的末端执行器速度，从而获得了一个复杂的交互轨迹，而无需明确学习策略。在常见的 8 个任务上进行的实现结果表明，这种方法可以从单个人类演示中学习出多样的技能，并产生稳定且可解释的控制器。

May, 2021