通过提升实现对抗模仿学习
通过 Policy Contrastive Imitation Learning (PCIL) 方法,我们解决了 Adversarial Imitation Learning (AIL) 中低质量的 AIL 鉴别器表示所带来的问题,并成功地生成了一种更具意义的对比奖励,从而在模仿学习中实现了最新的性能。
Jul, 2023
引入扩散模型到对抗性模仿学习框架中,提出了一种名为扩散对抗模仿学习(DiffAIL)的方法,以改进传统二元分类器的准确性,从而能更好地捕捉专家示范并提高泛化性能。实验证明,该方法在两个基准任务上达到了最先进的性能,并显著超过了专家演示。
Dec, 2023
该研究提出了将校准对比学习应用于视觉对抗性模仿学习框架的简单有效解决方案,以从视觉状态中提取有价值的特征,在不修改架构或产生显著计算成本的情况下,可以与模仿学习框架共同优化。实验证明,该方法在 DMControl Suite 上能够以样本效率高、从多个方面超越其他方法。
Jan, 2024
在这篇研究论文中,我们重新思考了对抗性逆向强化学习 (AIRL) 的两个不同方面:策略模仿和可转移奖励恢复。我们使用软 actor-critic (SAC) 在策略优化过程中替代了 AIRL 中的内置算法,以增强样本效率,并且可识别 AIRL 相对于 SAC 具有马尔可夫决策过程 (MDP) 模型。这确实显着提高了策略模仿,但不幸的是对可转移奖励恢复带来了一些不利影响。为了解决这个问题,我们指出 SAC 算法本身无法在 AIRL 训练过程中全面解藕奖励函数,并且提出了一个混合框架 PPO-AIRL + SAC,以实现满意的转移效果。此外,我们还从代数理论的角度分析了环境从中提取解藕奖励的能力。
Mar, 2024
使用新算法 “Discriminator-Actor-Critic”,提出解决基于 Adversarial Imitation Learning 框架的两个问题:隐式偏差和与环境产生大量交互所需的复杂性。该算法使用离线策略强化学习来降低策略 - 环境交互采样复杂度,并且由于我们的奖励函数是设计为无偏差的,因此可以在许多问题上应用而不进行任何任务特定的调整。
Sep, 2018
提出了一种名为模仿学习(ItorL)的新主题,旨在基于非常有限的专家示范实现即时重构模仿策略,用于不同的未知任务,无需任何额外的调整。通过将模仿学习集成到强化学习范式中,设计了 Demo-Attention Actor-Critic(DAAC)来解决 ItorL 问题,并为模仿者策略设计了一种基于示范的注意力架构,可以通过自适应追踪示范中的适当状态有效地输出模仿动作。在新的导航基准和机器人环境中,展示出 DAAC 在已知和未知任务上均比之前的模仿方法有着显著的优势。
Oct, 2023
我们研究了交互式模仿学习,其中学习者通过与演示专家的互动查询动作注释,旨在学习一种能够与专家表现竞争性能且使用尽可能少的注释的策略。我们提出了一种名为集成交互式模仿学习(EIIL)的算法框架,可实现此目标。从理论上讲,我们证明了 EIIL 的一个效率优于 oracle 版本能够保证尖锐的后悔,前提是可以访问某个对状态具有 “探索性” 分布的样本。经验上,EIIL 在连续控制任务中明显超过在线和离线模仿学习基准。我们的工作为使用模型集合进行交互式模仿学习的收益开辟了系统研究。
Dec, 2023
本文提出了一种名为 LfGP 的框架来解决在在线强化学习阶段中,由于缺乏探索而导致的分布偏移问题,LfGP 利用了多个探索性辅助任务的专家演示,强制代理程序探索标准 AIL 可能会忽略的状态和动作,实验结果表明,LfGP 在多任务机器人操纵领域中显著优于 AIL 和行为克隆。
Dec, 2022
本文介绍了一种利用 offline dataset 和 behavioral cloning 来解决 offline imitation learning 问题的算法,该算法额外引入了一个鉴别器来区分专家和非专家数据,并将其输出作为 behavioural cloning 的损失权重,实验结果表明该算法可以提高回报率和训练速度。
Jul, 2022