如何在离线模仿学习中利用多样化的示范

ICMLMay, 2024

如何在离线模仿学习中利用多样化的示范

How to Leverage Diverse Demonstrations in Offline Imitation Learning

Sheng Yue, Jiani Liu, Xingyuan Hua, Ju Ren, Sen Lin...

TL;DR离线仿真学习（IL）在实际领域中由于专家数据的稀缺性而受到越来越多的关注。本文介绍了一种简单而有效的数据选择方法，基于其结果状态识别积极行为，从而更好地利用动态信息并有效地提取专家行为和有益的多样行为。通过在复杂和高维离线 IL 基准测试中的实验评估，结果表明我们的方法达到了最先进的性能，在 20/21 个基准测试中超越了现有方法，通常是 2-5 倍，并且与行为克隆（BC）保持可比的运行时间。

Abstract

offline imitation learning (IL) with imperfect demonstrations has garnered increasing attention owing to the scarcity of expert data in many real-world domains. A fundamental problem in this scenario is how to ex

offline imitation learning imperfect demonstrations data selection method positive behaviors complex and high-dimensional offline il benchmarks

发现论文，激发创造

从亚优示例中进行判别器加权的离线模仿学习

本文介绍了一种利用 offline dataset 和 behavioral cloning 来解决 offline imitation learning 问题的算法，该算法额外引入了一个鉴别器来区分专家和非专家数据，并将其输出作为 behavioural cloning 的损失权重，实验结果表明该算法可以提高回报率和训练速度。

Jul, 2022

通过离线数据缓解模仿学习中的协变量漂移

本研究基于静态离线数据，提出了 MILO 框架及算法，用于高效解决无需在线交互式的模仿学习问题，其能够成功应对较弱行为准则下的状态行为的偏移问题，最终成功模仿高水平行为准则的动作。

Jun, 2021

反向软 Q 学习用于离线模仿与次优示范

离线模仿学习主要通过有限的专家演示和较大的次优演示来提出一种基于反向软 Q 学习的新方法，通过添加正则化项来对齐学习得到的回报函数，从而有效解决离线模仿学习中的过拟合问题和训练向次优策略靠拢的问题。该方法在标准基准测试中明显优于其他离线模仿学习方法。

Feb, 2024

通过松弛分布匹配实现离线次优演示的模仿学习

本文提出了一种针对少量优秀数据和大量劣质数据的离线模仿学习问题的解决方案，并且采用了一种松弛的 f - 分布来对策略的支持进行规范化，结果表明在六个标准连续控制环境中，相较于最优先的离线模仿学习方法，本文提出的 RelaxDICE 平均性能提升了 30％以上。

Mar, 2023

模仿学习中的数据质量

本文研究如何定义训练数据集的质量以及如何通过掌握数据质量来解决分布偏移的问题，其中主要包括两个关键性质：行动偏差和转移多样性。探究了这两种关键性质对任务学习的影响，并在实验中对不同来源的数据进行了分析，得出了状态多样性不总是有益的结论，同时演示了行动偏差和转移多样性是如何相互作用的。

Jun, 2023

基于策略的样本高效观测模仿学习

本文提出了 SEILO，这是一种新颖的 ILO 的样本有效的 on-policy 算法，结合了标准的对抗性模仿学习和逆动力学建模，通过此方法能够使智能体从对手过程和行为克隆损失中接收反馈，我们实证表明，相比于其他现有的 on-policy ILO 和 ILD 方法，我们所提出的算法需要更少的与环境的交互才能实现专家绩效。

Jun, 2023

分治学习模仿

本文介绍了一种基于序列归纳偏置的，从专家轨迹的状态中模仿复杂机器人任务并实现优化的新算法，将复杂任务拆分成较小的技能，将技能训练为 (goal-conditioned policy)，以便能够逐个解决每个技能并连接技能以完成整个任务，同时证明了该方法经过了无须几个未经过训练的样例即可实现了非完整导航任务和复杂的仿真机器人操作任务。

Apr, 2022

鉴别器指导的基于模型的离线模仿学习

该论文提出了一种基于鉴别器指导的模型辅助离线仿真学习框架，该框架采用协作对抗学习策略，能够显著提高在小数据集下的性能和鲁棒性。

Jul, 2022

具有逆动力学表示的稳健视觉模仿学习

我们提出了一种新颖的鲁棒模仿学习方法，通过发展逆动力学状态表示学习目标来对齐专家环境和学习环境，通过设计有效的奖励函数来度量行为数据和专家数据之间的相似性，从而在各种视觉扰动和视觉控制任务中实现近乎专家的性能，并显著优于当前最先进的视觉模仿学习方法和鲁棒模仿学习方法。

Oct, 2023

IQ-Learn: 逆软 Q 学习用于模仿

介绍了一种动态感知的逆强化学习方法 ——IQ-Learn，它通过学习单个 Q 函数来避免对抗性训练，并可在标准测试中取得最好的结果，比现有方法在所需的环境交互数量和高维空间可扩展性方面表现优异。

Jun, 2021