受损演示下的稳健模仿学习

Jan, 2022

Robust Imitation Learning from Corrupted Demonstrations

Liu Liu, Ziyang Tang, Lanqing Li, Dijun Luo

TL;DR本文提出解决离线模仿学习中存在数据噪音或离群点的问题的新型算法，通过最小化 Median-of-Means 目标函数对策略进行准确估计，实现精确的离群点估计和稳健性，同时实验证明在存在异常数据的情况下与传统 Behavior Cloning 算法相比有相同的误差和样本复杂性保证。

Abstract

We consider offline imitation learning from corrupted demonstrations where a constant fraction of data can be noise or even arbitrary outliers. Classical approaches such as Behavior Cloning assumes that demonstra

imitation learning corrupted demonstrations median-of-means objective outlier estimation robustness

发现论文，激发创造

如何在离线模仿学习中利用多样化的示范

离线仿真学习（IL）在实际领域中由于专家数据的稀缺性而受到越来越多的关注。本文介绍了一种简单而有效的数据选择方法，基于其结果状态识别积极行为，从而更好地利用动态信息并有效地提取专家行为和有益的多样行为。通过在复杂和高维离线 IL 基准测试中的实验评估，结果表明我们的方法达到了最先进的性能，在 20/21 个基准测试中超越了现有方法，通常是 2-5 倍，并且与行为克隆（BC）保持可比的运行时间。

May, 2024

纯净演示中的模仿学习

基于扩散过程的两步纯化方法，通过引入噪声消除了不完美展示中的潜在扰动，并从扩散后的数据中恢复出最优的专家展示，评估结果表明方法的有效性.

Oct, 2023

基于反向模型的少量演示稳健仿真

本文提出了一种基于生成式反向动力学模型的行为克隆方法以解决自我学习表现不佳的问题，利用模型产生短期想象轨迹进行训练，提高了模型的健壮性和适应性。

Oct, 2022

通过估计演示者的专业水平进行模仿学习

本研究通过对演示者专业技能的无监督学习，开发了一种可同时学习演示者政策和专业技能水平的联合模型，并通过过滤每种演示者的次优行为，训练出可以优于任何演示者的单一策略，并可用于估计任意状态下演示者的专业技能，在 Robomimic 等实际机器人控制任务以及 MiniGrid 和棋类等离散环境中取得了比其他方法更好的表现。

Feb, 2022

基于模型的离线模仿学习与非专家数据

通过利用最优和次优策略收集的数据集，我们提出了一种可扩展的基于模型的离线模仿学习算法框架，其最坏子优性与专家样本相关的时间视野呈线性，实验证明在模拟连续控制领域中，该算法始终表现优于行为克隆。

Jun, 2022

从亚优示例中进行判别器加权的离线模仿学习

本文介绍了一种利用 offline dataset 和 behavioral cloning 来解决 offline imitation learning 问题的算法，该算法额外引入了一个鉴别器来区分专家和非专家数据，并将其输出作为 behavioural cloning 的损失权重，实验结果表明该算法可以提高回报率和训练速度。

Jul, 2022

从次优演示中进行模仿学习的技能解耦

本文提出了一种可以从小的干净数据集和大的嘈杂数据集中学习到子最优示范的深度递归网络，通过技能探索和调整，以及相互信息正则化促进技能空间中的解缠缩。

Jun, 2023

基于 MOM 最小化的鲁棒分类

文章提出了一种基于中位数的方法对样本数据进行操作，构建了一种新的模型 MOM minimizers，相比经典的样本经验风险最小化方法，在处理分类问题上更具有鲁棒性，在满足样本具有有限的二阶矩条件下，得到了 Vapnik（慢速）收敛率，在此基础上提出了一种基于 MOM minimizers 的算法，通过有效的子采样，减少了非线性算法的计算时间和内存使用，文章还利用模拟和真实数据对该算法做了详细的实验表现。

Aug, 2018

用平均数中位数保障的机器学习：理论与实践

使用中位数估计器介绍了一种新的鲁棒机器学习估计器，能够在最小数据集假设下实现最佳收敛率，这一方法通过分析异常值而得出。该研究提出一个新的断点概念，该断点数量考虑了估计器的统计性能，同时提高了算法的可实现性。

Nov, 2017

模仿复杂轨迹：连接低层稳定性和高层行为

我们提出了一个理论框架，用于研究非马尔可夫、潜在多模态（即 “复杂的”）专家示范在非线性动力系统中的模仿。

Jul, 2023