外部因素感知的模仿学习
本文提出了一种基于对抗生成模型的模仿学习算法,能够通过无监督学习方法推断出专家示范中隐藏的潜在结构,并可以学习到复杂行为数据可解释且有意义的表示方式,包括图像示范。在驾驶领域中,我们展示了通过人类示范学习的模型能够准确地复现多种行为并能使用原始视觉输入准确地预测人类的行为。相比于其他基线算法,我们的方法能更好地捕捉隐藏在专家示范中的潜在结构,并经常回收到语义上有意义的数据变量。
Mar, 2017
提出了一种解耦表示学习与行为学习的视觉模仿学习方法,使用标准的监督和自监督学习方法来学习视觉表示编码器,然后使用非参数局部加权回归来预测行为。实验结果表明,这种简单的解耦可以提高视觉模仿模型在离线演示数据集和实际机器人开门方面的性能。
Dec, 2021
本研究通过对演示者专业技能的无监督学习,开发了一种可同时学习演示者政策和专业技能水平的联合模型,并通过过滤每种演示者的次优行为,训练出可以优于任何演示者的单一策略,并可用于估计任意状态下演示者的专业技能,在 Robomimic 等实际机器人控制任务以及 MiniGrid 和棋类等离散环境中取得了比其他方法更好的表现。
Feb, 2022
自我激励仿真学习 (SMILE) 是一种逐步过滤出被当前策略认为低劣的策略收集的演示的方法,利用扩散模型的正向和逆向过程模拟从低到高和从高到低的演示专业知识的转变,并利用噪声信息预测当前策略和演示者之间的扩散步骤,进一步详细说明了如何自我激励地应用预测的扩散步骤来过滤嘈杂的演示,并提供了其理论基础。通过对 MuJoCo 任务的实证评估,我们证明了我们的方法能够在嘈杂的演示环境中学习到专家策略,并有效地过滤掉低于当前策略的演示。
Oct, 2023
基于视觉观测的模仿学习的研究,在部分可观察环境中,引入了基于状态潜在转换分布的上界来分析学习代理的次优性,并提出了一种名为潜在对抗性观测模仿学的算法,在高维连续机器人任务中表现出与最先进的性能,同时提供显著的计算优势,并可以利用专家视频来提高从像素进行强化学习的效率。
Sep, 2023
本研究提出了一种基于视频预测、上下文转换和深度强化学习的 “观察型模仿学习” 方法,该方法消除了标准模仿学习对于完全相同环境的假设,并能够从一个演示者的视频中学习各种现实世界中的机器人技能,涵盖扫地、铲杏仁、推物品等家庭琐事任务以及模拟中的许多其他任务。
Jul, 2017
介绍了一种名为 Disentangling Generative Adversarial Imitation Learning(DisentanGAIL)的新算法,可通过对抗学习来自动学习高维度任务表现观察的特征,从而成功进行模仿,同时忽略专家和代理之间的差异,此算法在包括平衡、操纵和运动任务在内的各种控制问题中都具有高效性和稳健性。
Mar, 2021
该论文提出了一个从多个视角捕捉的无标注视频演示中学习视觉表示的框架,优化了最近提出的自监督学习算法,应用对比学习来增强与任务相关的信息和抑制特征嵌入中的无关信息,验证了所提出的方法在模拟几种机器人任务,包括 pick and place 任务中的应用,评估了学习表示的三个指标:视点对齐,阶段分类和强化学习,在所有情况下,结果都表明与现有方法相比,该方法水平更高,而且训练轮数更少。
Jan, 2022