本研究提出了使用置信度评分进行模仿学习,通过仅仅给予一小部分次优演示的置信度评分,有效地从次优演示中学习。此外,提出了两种基于置信度的模仿学习方法,即 2IWIL 和 IC-GAIL。理论和实证结果都表明,这些方法显著提高了模仿学习的性能。
Jan, 2019
本研究通过对演示者专业技能的无监督学习,开发了一种可同时学习演示者政策和专业技能水平的联合模型,并通过过滤每种演示者的次优行为,训练出可以优于任何演示者的单一策略,并可用于估计任意状态下演示者的专业技能,在 Robomimic 等实际机器人控制任务以及 MiniGrid 和棋类等离散环境中取得了比其他方法更好的表现。
Feb, 2022
本文提出了一种基于自对抗的无标签专家演示的算法,利用全面学习方法,动态地抽样专家演示,并与不断优化的策略进行比对,可以优化生成的轨迹,实现了动态的自我适应学习。
Feb, 2023
提出了一种名为模仿学习(ItorL)的新主题,旨在基于非常有限的专家示范实现即时重构模仿策略,用于不同的未知任务,无需任何额外的调整。通过将模仿学习集成到强化学习范式中,设计了 Demo-Attention Actor-Critic(DAAC)来解决 ItorL 问题,并为模仿者策略设计了一种基于示范的注意力架构,可以通过自适应追踪示范中的适当状态有效地输出模仿动作。在新的导航基准和机器人环境中,展示出 DAAC 在已知和未知任务上均比之前的模仿方法有着显著的优势。
Oct, 2023
本文提出了一种可以从小的干净数据集和大的嘈杂数据集中学习到子最优示范的深度递归网络,通过技能探索和调整,以及相互信息正则化促进技能空间中的解缠缩。
Jun, 2023
本文介绍了一种利用 offline dataset 和 behavioral cloning 来解决 offline imitation learning 问题的算法,该算法额外引入了一个鉴别器来区分专家和非专家数据,并将其输出作为 behavioural cloning 的损失权重,实验结果表明该算法可以提高回报率和训练速度。
Jul, 2022
离线仿真学习(IL)在实际领域中由于专家数据的稀缺性而受到越来越多的关注。本文介绍了一种简单而有效的数据选择方法,基于其结果状态识别积极行为,从而更好地利用动态信息并有效地提取专家行为和有益的多样行为。通过在复杂和高维离线 IL 基准测试中的实验评估,结果表明我们的方法达到了最先进的性能,在 20/21 个基准测试中超越了现有方法,通常是 2-5 倍,并且与行为克隆(BC)保持可比的运行时间。
May, 2024
本研究提出一种基于课程学习和 MoE 的模仿学习方法,用于从人类多样化的演示中教授机器人控制技能,并在复杂机器人控制任务中显著优于当前最先进的方法。
Apr, 2023
基于多个环境中的行为演示来学习模仿策略,通过学习跨域不变的特征表示,构建与专家行为匹配的模仿策略,以实现在未见环境中的泛化能力。
Nov, 2023
本文研究多个协调代理的演示的模仿学习问题,提出了一种综合了无监督结构学习和传统模仿学习的方法来同时学习潜在的协调模型和单个策略,通过在团队运动中学习多个策略的行为建模问题,表明了本文方法的强大之处。
Mar, 2017