LOTUS:无监督技能发现的机器人操控持续模仿学习
通过使用基于大型语言模型的规划器,我们克服了当前固定技能集的限制,提出了一种用于数据和时间高效教授机器人这些技能的方法,该系统可以重复使用新习得的技能,展示了开放世界和终身学习的潜力。
Sep, 2023
通过大型语言模型,我们研究了在具有高度泛化能力的视觉行为克隆代理中,从视觉观察中进行复杂多模态机器人操作任务。我们提出了 NBCagent,一个语言条件下的持续学习行为克隆代理,在面对一系列具有挑战性的未知任务时,可以不断学习新的机器人操作技能的观察知识。我们设计了一个特定于技能的进化规划器来进行知识解耦,可以将新的技能特定知识不断嵌入到我们的 NBCagent 代理中。同时,我们还提出了一个技能共享的语义渲染模块和技能共享的表示蒸馏模块,有效地在语义和表示方面传递抗遗忘的技能共享知识,进一步解决了旧技能的灾难性遗忘问题。最后,我们设计了一个持续的机器人操作基准,并进行了一些昂贵的实验,证明了我们方法的显著性能。
Mar, 2024
语言驱动的机器人技能研究中,通过利用大规模语言模型的高级推理能力应用于低级机器人控制,继续面临的挑战是获取多样化的基础技能。本研究介绍了一种完全由语言模型驱动的技能发现框架,通过提供的场景描述和机器人配置生成任务提案,并逐步获得新的技能来完成任务,使用强化学习过程以及独立的视觉 - 语言模型确保学到的行为的可靠性和可信度,从而使机器人能够高效地提出和完成高级任务。
May, 2024
该论文提出了基于自我监督控制和玩耍数据的方法来扩大技能学习,结合自我监督控制和多样性玩耍数据集,实现了对环境中所有可用行为的连续学习,取得了在机器人桌面环境中 18 项视觉操作任务上的显著表现,同时表现出更强的抗干扰能力和重试成功的行为。
Mar, 2019
未来的自主智能机器人面临着从非重复稀疏数据流中学习、检测新颖性并具备无监督学习能力的挑战。本文通过提出一种名为 Continually Learning Prototypes (CLP) 的基于原型的方法,解决了这一挑战。CLP 在 FS-OCL 学习中表现出卓越的结果,在检测新颖性和无监督学习方面达到强基线水平。
Mar, 2024
本文旨在通过模仿学习的角度研究如何通过扩大数据采集并建立交互灵活的学习系统来促进基于视觉的机器人操作系统向新任务的泛化,当扩展真实机器人的数据采集到 100 个不同的任务时,我们发现此系统可以实现 24 个未见过的操作任务,平均成功率为 44%。
Feb, 2022
本文介绍使用干预性策略学习的方法来解决机器人操作任务中必须经过精确定序的地方的问题,提出一种 6 自由度机器人操作任务的数据采集系统,并开发了一个简单而有效的算法来收集新数据以遍历通过这些难点,使用干预策略学习的代理在机器人的线路穿线任务和制造咖啡任务中的表现优于其他多种基线算法。
Dec, 2020
我们提出了一种自我监督任务推理方法,通过观察到的未标记演示的运动和效果部分的自组织以及联合动作 - 意图嵌入的自组织学习,学习行动和意图嵌入,并构建了一个行为匹配的自我监督学习目标来训练一个新型的任务推理网络,该网络将未标记演示映射到其最近的行为嵌入作为任务表示,所建立的多任务策略通过强化学习进行训练,以优化任务的性能。我们的方法在固定集合和持续多任务学习设置下使用一个人形机器人进行评估,并与不同的多任务学习基线进行比较。结果表明,我们的方法在持续学习设置下性能优于其他基线,尤其在具有挑战性的情况下,并且能够从不完整的演示中推断出任务。在单次任务泛化实验中,我们的方法还显示出对未见任务的推理能力。
Sep, 2023
本论文研究了如何将基于连续学习模型的目标识别系统与移动机器人 Fetch 结合起来,以便使机器人能够在与人类用户的多个交互中继续学习。通过与 60 名参与者进行的实验,作者发现,如果机器人忘记了之前学过的目标,参与者对于连续学习机器人的信任、能力和可用性的感知将会明显降低。然而,进行 2-3 次教学和测试任务的任务负荷并不随会话数的增加而增加。此外,本研究发现,目前的连续学习模型在机器人与人类参与者交互时的可靠性较低。
May, 2023
提出了一个新颖的机器人终身学习问题模型,通过对任务和运动规划(TAMP)的学习利用模块化的方法设计生成混合模型,并根据辅助任务确定在线上使用共享或非共享模型,解决了数据如何在任务模型之间共享的问题。该方法在 2D 领域的模拟和 BEHAVIOR 基准测试中的实验中均实现了显著的规划成功率提升。
Jul, 2023