来自不完美演示的模仿学习

Jan, 2019

Imitation Learning from Imperfect Demonstration

Yueh-Hua Wu, Nontawat Charoenphakdee, Han Bao, Voot Tangkaratt, Masashi Sugiyama

TL;DR本研究提出了使用置信度评分进行模仿学习，通过仅仅给予一小部分次优演示的置信度评分，有效地从次优演示中学习。此外，提出了两种基于置信度的模仿学习方法，即 2IWIL 和 IC-GAIL。理论和实证结果都表明，这些方法显著提高了模仿学习的性能。

Abstract

imitation learning (IL) aims to learn an optimal policy from demonstrations. However, such demonstrations are often imperfect since collecting optimal ones is costly. To effectively learn from imperfect demonstrations, we propose a novel approach that utilizes →

imitation learning confidence scores two-step importance weighting generative adversarial sub-optimal demonstrations

发现论文，激发创造

具有可变乐观性的演示自信度感知模仿学习

本文提出了一种通用框架，称为置信度感知式模仿学习（CAIL），能够从各种最优性的演示中学习置信度评分和一个良好表现策略，广泛应用于机器人控制领域。

Oct, 2021

从亚优示例中进行判别器加权的离线模仿学习

本文介绍了一种利用 offline dataset 和 behavioral cloning 来解决 offline imitation learning 问题的算法，该算法额外引入了一个鉴别器来区分专家和非专家数据，并将其输出作为 behavioural cloning 的损失权重，实验结果表明该算法可以提高回报率和训练速度。

Jul, 2022

基于策略的样本高效观测模仿学习

本文提出了 SEILO，这是一种新颖的 ILO 的样本有效的 on-policy 算法，结合了标准的对抗性模仿学习和逆动力学建模，通过此方法能够使智能体从对手过程和行为克隆损失中接收反馈，我们实证表明，相比于其他现有的 on-policy ILO 和 ILD 方法，我们所提出的算法需要更少的与环境的交互才能实现专家绩效。

Jun, 2023

纯净演示中的模仿学习

基于扩散过程的两步纯化方法，通过引入噪声消除了不完美展示中的潜在扰动，并从扩散后的数据中恢复出最优的专家展示，评估结果表明方法的有效性.

Oct, 2023

对抗性模仿学习中的无标签不完美演示

本文提出了一种基于自对抗的无标签专家演示的算法，利用全面学习方法，动态地抽样专家演示，并与不断优化的策略进行比对，可以优化生成的轨迹，实现了动态的自我适应学习。

Feb, 2023

通过估计演示者的专业知识进行逆强化学习

使用不完美和异构演示在模仿学习中存在相当大的挑战，本文介绍了一种名为 IRLEED 的新框架，通过估计演示者的专业水准，克服了现有逆强化学习算法中对不完善演示的缺陷，并结合最大熵逆强化学习框架从多样的不完善演示中高效地得出最优策略。通过在线和离线模仿学习设置以及模拟和人工生成的数据进行的实验表明，IRLEED 具有适应性和有效性，成为从不完善演示中学习的通用解决方案。

Feb, 2024

自我激励模仿学习：噪声演示的优化

自我激励仿真学习 (SMILE) 是一种逐步过滤出被当前策略认为低劣的策略收集的演示的方法，利用扩散模型的正向和逆向过程模拟从低到高和从高到低的演示专业知识的转变，并利用噪声信息预测当前策略和演示者之间的扩散步骤，进一步详细说明了如何自我激励地应用预测的扩散步骤来过滤嘈杂的演示，并提供了其理论基础。通过对 MuJoCo 任务的实证评估，我们证明了我们的方法能够在嘈杂的演示环境中学习到专家策略，并有效地过滤掉低于当前策略的演示。

Oct, 2023

鉴别器指导的基于模型的离线模仿学习

该论文提出了一种基于鉴别器指导的模型辅助离线仿真学习框架，该框架采用协作对抗学习策略，能够显著提高在小数据集下的性能和鲁棒性。

Jul, 2022

用于单示范模仿学习的专家接近度作为替代奖励

单个示范模仿学习浅层奖励问题通过过渡判别基于 IL 方法得到缓解，在五个广泛采用的 MuJoCo 基准测试以及 “灵巧门” 环境中，该方法胜过现有的 IL 方法且达到专家级性能。

Feb, 2024

基于集成的交互式模仿学习

我们研究了交互式模仿学习，其中学习者通过与演示专家的互动查询动作注释，旨在学习一种能够与专家表现竞争性能且使用尽可能少的注释的策略。我们提出了一种名为集成交互式模仿学习（EIIL）的算法框架，可实现此目标。从理论上讲，我们证明了 EIIL 的一个效率优于 oracle 版本能够保证尖锐的后悔，前提是可以访问某个对状态具有 “探索性” 分布的样本。经验上，EIIL 在连续控制任务中明显超过在线和离线模仿学习基准。我们的工作为使用模型集合进行交互式模仿学习的收益开辟了系统研究。

Dec, 2023