模仿学习: 学习方法、环境和评估方法综述

Apr, 2024

模仿学习: 学习方法、环境和评估方法综述

Imitation Learning: A Survey of Learning Methods, Environments and Metrics

Nathan Gavenski, Odinaldo Rodrigues, Michael Luck

TL;DR模仿学习的文献内容进行了系统回顾，通过引入新的分类法对模仿学习技术、环境和度量进行了分类，反思了文献中的主要问题，并提出了研究者面临的挑战和未来发展方向。

Abstract

imitation learning is an approach in which an agent learns how to execute a task by trying to mimic how one or more teachers perform it. This learning approach offers a compromise between the time it takes to learn a new task and the effort needed to collect →

发现论文，激发创造

通过交互无悔学习实现强化学习和模仿学习

通过交互式学习和无悔在线学习的分析方法，本文扩展了现有结果，发展了利用成本信息的交互式模仿学习方法，并将该技术扩展到应对强化学习，提供了对在线近似策略迭代成功的理论支持，建议了一系列新的算法，并提供了对模仿学习和强化学习现有技术的统一视角。

Jun, 2014

第三人称模仿学习

本文提出了一种利用领域混淆技术进行无监督第三人称模仿学习的方法，证明了该方法在点质点领域、伸手领域和倒立摆等领域的第三人称模仿学习中取得成功。

Mar, 2017

通过上下文翻译从原始视频中学习模仿行为

本研究提出了一种基于视频预测、上下文转换和深度强化学习的“观察型模仿学习”方法，该方法消除了标准模仿学习对于完全相同环境的假设，并能够从一个演示者的视频中学习各种现实世界中的机器人技能，涵盖扫地、铲杏仁、推物品等家庭琐事任务以及模拟中的许多其他任务。

Jul, 2017

模仿学习的算法视角

本论文介绍了仿真学习的基本概念、假设、方法及其算法，探究其与机器学习、控制论等领域的关系，为机器学习专家与机器人及应用人工智能专家提供知识储备与工具。

Nov, 2018

时刻与匹配：一个用于弥合模仿差距的博弈理论框架

我们通过矩匹配的视角提供了先前大量的模仿学习算法的统一观点，并考虑了学习者和专家之间行为差异之间的分歧以派生出适用于每个算法类别中的所有算法的策略性能的界限。我们引入了矩恢复的概念，使我们能够清晰地划分每个算法家族的表现如何缓解复合误差，并推导出三种具有强有力的保证，简单实现和有竞争力的经验性能的算法模板（AdVIL，AdRIL和DAeQuIL）。

Mar, 2021

通过估计演示者的专业水平进行模仿学习

本研究通过对演示者专业技能的无监督学习，开发了一种可同时学习演示者政策和专业技能水平的联合模型，并通过过滤每种演示者的次优行为，训练出可以优于任何演示者的单一策略，并可用于估计任意状态下演示者的专业技能，在Robomimic等实际机器人控制任务以及MiniGrid和棋类等离散环境中取得了比其他方法更好的表现。

Feb, 2022

未观测到混杂因素的因果模仿学习

研究表明在模仿学习中，学者提出了一个非参数图形标准来确定模仿的可行性，并建立了一个有效的程序来从专家轨迹中学习模仿策略。

Aug, 2022

模仿学习综述：算法、最新进展和挑战

这篇论文旨在介绍模仿学习（IL）及其基本假设和方法，提供领域内最新进展和新兴研究的详细描述，讨论了解决模仿学习相关挑战的常见方法，并提出未来研究的潜在方向，全面指导机器人和人工智能领域中日益增长的模仿学习研究。

Sep, 2023

探索性模仿学习：一种连续环境的路径签名方法

本文提出了一种新的方法CILO（Continuous Imitation Learning from Observation），它通过增加探索性和路径签名两个重要特征来增强模仿学习的效果，并在五个环境中与基线和其他两种方法进行了比较，结果显示CILO在所有环境中都表现出最佳性能，其中两个环境中超过了专家。

Jul, 2024

双手操作模仿学习算法的比较

本研究针对模仿学习算法在工业高精度环境中的应用，探讨了其超参数敏感性、培训简易性、数据效率和性能等方面的缺乏研究。通过对多接触复杂双手操作任务的评估，揭示了不同算法在应对环境和超参数扰动、训练需求、性能及易用性方面的差异，为选择合适的模仿学习算法提供了实证依据。

Aug, 2024