学习鉴别：偏好与表示学习中的模仿异质人类示范

Oct, 2023

学习鉴别：偏好与表示学习中的模仿异质人类示范

Learning to Discern: Imitating Heterogeneous Human Demonstrations with Preference and Representation Learning

Sachit Kuhar, Shuo Cheng, Shivang Chopra, Matthew Bronars, Danfei Xu

TL;DR本文介绍了一种离线模仿学习框架，Learning to Discern (L2D)，用于从具有多样化质量和风格的演示中学习。通过在潜在空间中进行偏好学习，我们能够对不同风格的新演示进行评估和学习，从而提高各种任务的策略性能。

Abstract

Practical imitation learning (IL) systems rely on large human demonstration datasets for successful policy learning. However, challenges lie in maintaining the quality of collected data and addressing the subopti

imitation learning policy learning demonstration quality learning to discern preference learning

发现论文，激发创造

多人模仿学习中的兼容演示引导

研究通过基于人提供的演示的模仿学习来学习机器人操作策略，通过测量新演示与基本策略的兼容性并积极征求新用户的兼容演示，从而改善任务成功率。

Oct, 2022

如何在离线模仿学习中利用多样化的示范

离线仿真学习（IL）在实际领域中由于专家数据的稀缺性而受到越来越多的关注。本文介绍了一种简单而有效的数据选择方法，基于其结果状态识别积极行为，从而更好地利用动态信息并有效地提取专家行为和有益的多样行为。通过在复杂和高维离线 IL 基准测试中的实验评估，结果表明我们的方法达到了最先进的性能，在 20/21 个基准测试中超越了现有方法，通常是 2-5 倍，并且与行为克隆（BC）保持可比的运行时间。

May, 2024

从次优演示中进行模仿学习的技能解耦

本文提出了一种可以从小的干净数据集和大的嘈杂数据集中学习到子最优示范的深度递归网络，通过技能探索和调整，以及相互信息正则化促进技能空间中的解缠缩。

Jun, 2023

从亚优示例中进行判别器加权的离线模仿学习

本文介绍了一种利用 offline dataset 和 behavioral cloning 来解决 offline imitation learning 问题的算法，该算法额外引入了一个鉴别器来区分专家和非专家数据，并将其输出作为 behavioural cloning 的损失权重，实验结果表明该算法可以提高回报率和训练速度。

Jul, 2022

基于离线数据的观测模仿学习的双重方法

通过学习一个多步效用函数来量化每个行动对智能体与专家的访问分布之间的差异，我们提出了 DILO (从观测中进行双重模仿学习) 算法，它可以利用任意次优数据学习模仿策略而不需要专家行动，从而有效地解决了高维观测问题，表现得更好。

Jun, 2024

鉴别器指导的基于模型的离线模仿学习

该论文提出了一种基于鉴别器指导的模型辅助离线仿真学习框架，该框架采用协作对抗学习策略，能够显著提高在小数据集下的性能和鲁棒性。

Jul, 2022

InfoGAIL：来自视觉示范的可解释性模仿学习

本文提出了一种基于对抗生成模型的模仿学习算法，能够通过无监督学习方法推断出专家示范中隐藏的潜在结构，并可以学习到复杂行为数据可解释且有意义的表示方式，包括图像示范。在驾驶领域中，我们展示了通过人类示范学习的模型能够准确地复现多种行为并能使用原始视觉输入准确地预测人类的行为。相比于其他基线算法，我们的方法能更好地捕捉隐藏在专家示范中的潜在结构，并经常回收到语义上有意义的数据变量。

Mar, 2017

通过估计演示者的专业知识进行逆强化学习

使用不完美和异构演示在模仿学习中存在相当大的挑战，本文介绍了一种名为 IRLEED 的新框架，通过估计演示者的专业水准，克服了现有逆强化学习算法中对不完善演示的缺陷，并结合最大熵逆强化学习框架从多样的不完善演示中高效地得出最优策略。通过在线和离线模仿学习设置以及模拟和人工生成的数据进行的实验表明，IRLEED 具有适应性和有效性，成为从不完善演示中学习的通用解决方案。

Feb, 2024

对抗性模仿学习中的无标签不完美演示

本文提出了一种基于自对抗的无标签专家演示的算法，利用全面学习方法，动态地抽样专家演示，并与不断优化的策略进行比对，可以优化生成的轨迹，实现了动态的自我适应学习。

Feb, 2023

用于单示范模仿学习的专家接近度作为替代奖励

单个示范模仿学习浅层奖励问题通过过渡判别基于 IL 方法得到缓解，在五个广泛采用的 MuJoCo 基准测试以及 “灵巧门” 环境中，该方法胜过现有的 IL 方法且达到专家级性能。

Feb, 2024