自监督任务推断的连续机器人学习

Sep, 2023

自监督任务推断的连续机器人学习

Continual Robot Learning using Self-Supervised Task Inference

Muhammad Burhan Hafez, Stefan Wermter

TL;DR我们提出了一种自我监督任务推理方法，通过观察到的未标记演示的运动和效果部分的自组织以及联合动作 - 意图嵌入的自组织学习，学习行动和意图嵌入，并构建了一个行为匹配的自我监督学习目标来训练一个新型的任务推理网络，该网络将未标记演示映射到其最近的行为嵌入作为任务表示，所建立的多任务策略通过强化学习进行训练，以优化任务的性能。我们的方法在固定集合和持续多任务学习设置下使用一个人形机器人进行评估，并与不同的多任务学习基线进行比较。结果表明，我们的方法在持续学习设置下性能优于其他基线，尤其在具有挑战性的情况下，并且能够从不完整的演示中推断出任务。在单次任务泛化实验中，我们的方法还显示出对未见任务的推理能力。

Abstract

Endowing robots with the human ability to learn a growing set of skills over the course of a lifetime as opposed to mastering single tasks is an open problem in robot learning. While multi-task learning approache

robot learning task inference self-supervised learning multi-task learning continual learning

发现论文，激发创造

少样本模仿学习任务嵌入控制网络

该论文提出了一种基于测量学习的元学习方法：利用任务嵌入用于学习新的单个、多个实例任务，实现在真实世界中从单个演示中学习新任务的能力。

Oct, 2018

机器人内在动机和自动课程学习实现逐步复杂任务

提出了一种多任务学习的层级强化学习框架，名为 SGIM-SAHT，用于使机器人完成各种复杂的控制任务，并演示了该框架能够学习到基本的任务和复合任务之间的层次关系，从而实现了从简到难的任务学习，并通过表示任务依赖性、内在动机探索、主动模仿等途径，使机器人能够推断出自己的任务学习进度，并决定何时、如何、以及向谁进行模仿学习。

Feb, 2022

任务与动作规划的具身终身学习

提出了一个新颖的机器人终身学习问题模型，通过对任务和运动规划（TAMP）的学习利用模块化的方法设计生成混合模型，并根据辅助任务确定在线上使用共享或非共享模型，解决了数据如何在任务模型之间共享的问题。该方法在 2D 领域的模拟和 BEHAVIOR 基准测试中的实验中均实现了显著的规划成功率提升。

Jul, 2023

时间对比网络：从视频中进行自监督学习

提出了一种自监督学习的方法，可以从多个视角拍摄的未标记视频中学习表征和机器人行为，能够用于机器人模仿人类的对象交互和身体姿势，训练该模型使用度量学习损失，使该模型能够发现在不同视角下发生变化但在时间域内不发生变化的属性，并可在强化学习算法中用作奖励函数。

Apr, 2017

无任务离线强化学习的潜在计划

本研究提出了一种层次化的方法，将模仿学习和离线强化学习的优点相结合，学习从高维相机观察中获得与任务无关的长时程策略，并通过技能链接来合并潜在的行为先验，以达到以前未见的技能组合，从而更好地控制机器人的实验结果。

Sep, 2022

一次性模仿学习

本文旨在提出一个元学习框架，称之为一次学习，实现机器人从极少量的演示中学习，并即刻推广到相似的其他任务中。

Mar, 2017

ConTinTin：基于任务指令的连续学习

本研究提出了一种新的学习范式 ConTinTin (Continual Learning from Task Instructions)，通过学习一系列新任务，每个任务都有一条文本指令，要求系统生成预期输出并将前面任务中获取的知识转移到后续任务中，同时保持甚至提高先前任务的性能。在 60 个由文本指令装备的任务流中，本文方法 InstructionSpeak 具有学习负面输出和重新访问先前任务指令的两个策略，可充分利用任务指令提高前向和后向传递效果。

Mar, 2022

自主推断子任务依赖关系的元强化学习

本文提出了一种新颖的少样本强化学习问题，其通过任务的子任务图描述一组子任务及其依赖关系，我们开发了一种元学习器，即消息传递子任务图推理器（MSGI），该学习器通过与环境交互推断任务的潜在参数，并采用上限置信界中得到启发的内在奖励以促进有效探索，实验结果表明该方法能够准确推断潜在任务参数，并比现有的元强化学习和分层强化学习方法更有效地适应。

Jan, 2020

自监督学习图像嵌入以进行连续控制

本研究探讨了完全自我监督的学习方法，基于状态达成最短时间来实现通用图像嵌入和控制基元，同时介绍了一种新的状态操作价值函数结构，建立了模型自由和模型基础方法之间的联系，并提高了学习算法的性能。三项模拟机器人任务的实验结果表明了这些发现。

Jan, 2019

具有非稳态相互依赖关系的自主开放式任务学习

该论文提出了一种基于马尔可夫决策过程的分层架构，使用内在动机最大化机器人学习多个具有关联性目标的能力，并提出了一种新的系统 H-GRAIL 来记录自主获取的任务序列，以能够在非稳态情况下修改它们。

May, 2022