LOTUS：无监督技能发现的机器人操控持续模仿学习

Nov, 2023

LOTUS：无监督技能发现的机器人操控持续模仿学习

LOTUS: Continual Imitation Learning for Robot Manipulation Through Unsupervised Skill Discovery

Weikang Wan, Yifeng Zhu, Rutav Shah, Yuke Zhu

TL;DRLOTUS 是一种持续模仿学习算法，使物理机器人能够在其寿命期内持续而高效地学习解决新的操作任务。通过使用一个开放词汇表视觉模型进行持续的技能发现过程，LOTUS 能构建一个不断增长的技能库，从一系列以少量人类示范展示的新任务中提取技能，并通过训练一个元控制器灵活地组合各种技能来解决基于视觉的操作任务，显示出比先前方法更强的知识传递能力。

Abstract

We introduce lotus, a continual imitation learning algorithm that empowers a physical robot to continuously and efficiently learn to solve new manipulation tasks throughout its lifespan. The core idea behind

lotus continual imitation learning manipulation tasks skill discovery vision-based manipulation

发现论文，激发创造

基于基础模型的人机协同持续机器人学习

通过使用基于大型语言模型的规划器，我们克服了当前固定技能集的限制，提出了一种用于数据和时间高效教授机器人这些技能的方法，该系统可以重复使用新习得的技能，展示了开放世界和终身学习的潜力。

Sep, 2023

无尽的机器人体感学习

通过大型语言模型，我们研究了在具有高度泛化能力的视觉行为克隆代理中，从视觉观察中进行复杂多模态机器人操作任务。我们提出了 NBCagent，一个语言条件下的持续学习行为克隆代理，在面对一系列具有挑战性的未知任务时，可以不断学习新的机器人操作技能的观察知识。我们设计了一个特定于技能的进化规划器来进行知识解耦，可以将新的技能特定知识不断嵌入到我们的 NBCagent 代理中。同时，我们还提出了一个技能共享的语义渲染模块和技能共享的表示蒸馏模块，有效地在语义和表示方面传递抗遗忘的技能共享知识，进一步解决了旧技能的灾难性遗忘问题。最后，我们设计了一个持续的机器人操作基准，并进行了一些昂贵的实验，证明了我们方法的显著性能。

Mar, 2024

加入技能发现

语言驱动的机器人技能研究中，通过利用大规模语言模型的高级推理能力应用于低级机器人控制，继续面临的挑战是获取多样化的基础技能。本研究介绍了一种完全由语言模型驱动的技能发现框架，通过提供的场景描述和机器人配置生成任务提案，并逐步获得新的技能来完成任务，使用强化学习过程以及独立的视觉 - 语言模型确保学到的行为的可靠性和可信度，从而使机器人能够高效地提出和完成高级任务。

May, 2024

从游戏中学习潜在计划

该论文提出了基于自我监督控制和玩耍数据的方法来扩大技能学习，结合自我监督控制和多样性玩耍数据集，实现了对环境中所有可用行为的连续学习，取得了在机器人桌面环境中 18 项视觉操作任务上的显著表现，同时表现出更强的抗干扰能力和重试成功的行为。

Mar, 2019

自主机器人的持续学习：基于原型的方法

未来的自主智能机器人面临着从非重复稀疏数据流中学习、检测新颖性并具备无监督学习能力的挑战。本文通过提出一种名为 Continually Learning Prototypes (CLP) 的基于原型的方法，解决了这一挑战。CLP 在 FS-OCL 学习中表现出卓越的结果，在检测新颖性和无监督学习方面达到强基线水平。

Mar, 2024

BC-Z：利用机器人模仿学习实现无需先学习任务的泛化

本文旨在通过模仿学习的角度研究如何通过扩大数据采集并建立交互灵活的学习系统来促进基于视觉的机器人操作系统向新任务的泛化，当扩展真实机器人的数据采集到 100 个不同的任务时，我们发现此系统可以实现 24 个未见过的操作任务，平均成功率为 44%。

Feb, 2022

使用远程遥操作的人在循环中模仿学习

本文介绍使用干预性策略学习的方法来解决机器人操作任务中必须经过精确定序的地方的问题，提出一种 6 自由度机器人操作任务的数据采集系统，并开发了一个简单而有效的算法来收集新数据以遍历通过这些难点，使用干预策略学习的代理在机器人的线路穿线任务和制造咖啡任务中的表现优于其他多种基线算法。

Dec, 2020

自监督任务推断的连续机器人学习

我们提出了一种自我监督任务推理方法，通过观察到的未标记演示的运动和效果部分的自组织以及联合动作 - 意图嵌入的自组织学习，学习行动和意图嵌入，并构建了一个行为匹配的自我监督学习目标来训练一个新型的任务推理网络，该网络将未标记演示映射到其最近的行为嵌入作为任务表示，所建立的多任务策略通过强化学习进行训练，以优化任务的性能。我们的方法在固定集合和持续多任务学习设置下使用一个人形机器人进行评估，并与不同的多任务学习基线进行比较。结果表明，我们的方法在持续学习设置下性能优于其他基线，尤其在具有挑战性的情况下，并且能够从不完整的演示中推断出任务。在单次任务泛化实验中，我们的方法还显示出对未见任务的推理能力。

Sep, 2023

通过人机交互进行连续学习 —— 重复互动中人类对连续学习机器人的认知

本论文研究了如何将基于连续学习模型的目标识别系统与移动机器人 Fetch 结合起来，以便使机器人能够在与人类用户的多个交互中继续学习。通过与 60 名参与者进行的实验，作者发现，如果机器人忘记了之前学过的目标，参与者对于连续学习机器人的信任、能力和可用性的感知将会明显降低。然而，进行 2-3 次教学和测试任务的任务负荷并不随会话数的增加而增加。此外，本研究发现，目前的连续学习模型在机器人与人类参与者交互时的可靠性较低。

May, 2023

任务与动作规划的具身终身学习

提出了一个新颖的机器人终身学习问题模型，通过对任务和运动规划（TAMP）的学习利用模块化的方法设计生成混合模型，并根据辅助任务确定在线上使用共享或非共享模型，解决了数据如何在任务模型之间共享的问题。该方法在 2D 领域的模拟和 BEHAVIOR 基准测试中的实验中均实现了显著的规划成功率提升。

Jul, 2023