基于课程的通用技能模仿
本研究提出一种元模仿学习方法,通过深度神经网络对机器人进行高效学习,使机器人能够从一个单独的示例中获取新技能,并能够终端到端地学习。实验结果表明,该方法能够扩展到原始像素输入,并且需要较少前置任务数据,具有广泛的应用前景。
Sep, 2017
本文提出了一种协作对抗式学习方法,用于从包含不同状态转移模式的未标记数据集中最大化它们的可辨识度,获得可控技能集的单一多才策略。实验结果表明,借助生成式对抗模仿学习框架中的无监督技能发现,出现了成功完成任务的新颖有用技能。最后,在名为 Solo 8 的敏捷四足机器人上测试了所获得的多才多艺策略,并呈现出编码在演示中的各种不同技能的忠实复制。
Sep, 2022
我们提出了 SLIM,一种多批评家学习方法,它通过在演员 - 评论家框架中优雅地结合多个奖励函数,显著提高了机器人操作的潜在变量技能发现,克服了可能干扰收敛到有用技能的奖励之间的干扰,并展示了在桌面操作中,我们方法在获得安全高效的运动基元方面的适用性,通过规划利用它们,大大超过了技能发现的现有方法。
Feb, 2024
本研究通过对演示者专业技能的无监督学习,开发了一种可同时学习演示者政策和专业技能水平的联合模型,并通过过滤每种演示者的次优行为,训练出可以优于任何演示者的单一策略,并可用于估计任意状态下演示者的专业技能,在 Robomimic 等实际机器人控制任务以及 MiniGrid 和棋类等离散环境中取得了比其他方法更好的表现。
Feb, 2022
这篇研究论文介绍了一种将自然语言引入模仿学习中的方法,可以让专家在提供动作演示的同时,提供自然语言的描述。通过融合语言、知觉和动作的关系,实现了更加精细的控制,降低了场景的模糊度。在七自由度机械臂控制任务上的模拟实验表明,此方法可有效学习自然语言条件下的机器人操作策略,并与其他方法相比做出了明显改进。
Oct, 2020
本文介绍了一种基于序列归纳偏置的,从专家轨迹的状态中模仿复杂机器人任务并实现优化的新算法,将复杂任务拆分成较小的技能,将技能训练为 (goal-conditioned policy),以便能够逐个解决每个技能并连接技能以完成整个任务,同时证明了该方法经过了无须几个未经过训练的样例即可实现了非完整导航任务和复杂的仿真机器人操作任务。
Apr, 2022
本篇论文提出了一种多模态模仿学习框架,能够通过学习技能分段和模仿学习来从未标记和非结构化的示范中分段并模仿技能,从而克服了传统模仿学习方法因要求有结构和隔离示范而限制其可扩展性的问题。广泛的仿真实验证明,我们的方法能够有效地将示范分割成各自的技能,并使用单一的多模态策略学习模仿,实现了多任务执行。
May, 2017