Sep, 2023

自监督任务推断的连续机器人学习

TL;DR我们提出了一种自我监督任务推理方法,通过观察到的未标记演示的运动和效果部分的自组织以及联合动作 - 意图嵌入的自组织学习,学习行动和意图嵌入,并构建了一个行为匹配的自我监督学习目标来训练一个新型的任务推理网络,该网络将未标记演示映射到其最近的行为嵌入作为任务表示,所建立的多任务策略通过强化学习进行训练,以优化任务的性能。我们的方法在固定集合和持续多任务学习设置下使用一个人形机器人进行评估,并与不同的多任务学习基线进行比较。结果表明,我们的方法在持续学习设置下性能优于其他基线,尤其在具有挑战性的情况下,并且能够从不完整的演示中推断出任务。在单次任务泛化实验中,我们的方法还显示出对未见任务的推理能力。