通过降维到 I.I.D. 主动学习实现的主动模仿学习

Oct, 2012

通过降维到 I.I.D. 主动学习实现的主动模仿学习

Active Imitation Learning via Reduction to I.I.D. Active Learning

Kshitij Judah, Alan Fern, Thomas G. Dietterich

TL;DR该论文主要介绍了积极模仿学习（active imitation learning）的概念，通过询问专家对单个状态下预期行为的降低学习难度；引入了一种基于 i.i.d. 积极学习的新方法，并分析了该方法对于非定态（non-stationary）和定态（stationary）策略的可行性和性能；最后，该论文提出了一种实用算法，与其他模型相比在四个测试领域表现出较高的效果。

Abstract

In standard passive imitation learning, the goal is to learn a target policy by passively observing full execution trajectories of it. Unfortunately, generating such trajectories can require substantial expert effort and be impractical in some cases. In this paper, we consider active <

imitation learning active learning policy learning expert queries label complexity

发现论文，激发创造

带有噪声引导的主动模仿学习

LEAQI 算法利用差异分类器在序列标注任务中替代了昂贵、低效的查询过程，实现了更好的查询效果和准确度。

May, 2020

基于策略的样本高效观测模仿学习

本文提出了 SEILO，这是一种新颖的 ILO 的样本有效的 on-policy 算法，结合了标准的对抗性模仿学习和逆动力学建模，通过此方法能够使智能体从对手过程和行为克隆损失中接收反馈，我们实证表明，相比于其他现有的 on-policy ILO 和 ILD 方法，我们所提出的算法需要更少的与环境的交互才能实现专家绩效。

Jun, 2023

基于集成的交互式模仿学习

我们研究了交互式模仿学习，其中学习者通过与演示专家的互动查询动作注释，旨在学习一种能够与专家表现竞争性能且使用尽可能少的注释的策略。我们提出了一种名为集成交互式模仿学习（EIIL）的算法框架，可实现此目标。从理论上讲，我们证明了 EIIL 的一个效率优于 oracle 版本能够保证尖锐的后悔，前提是可以访问某个对状态具有 “探索性” 分布的样本。经验上，EIIL 在连续控制任务中明显超过在线和离线模仿学习基准。我们的工作为使用模型集合进行交互式模仿学习的收益开辟了系统研究。

Dec, 2023

强化学习中的模仿学习

针对确定性专家，本文使用固定奖励将模仿学习降为强化学习问题，并证实了可以恢复专家的奖励，并将模仿者与专家之间的总变化距离等同于对抗模仿学习，针对连续控制任务进行了实验确认降维的有效性。

Aug, 2021

主动第三人称模仿学习

通过选择适当的视角从有限的信息中获取专家行为进行第三方模仿学习，并使用生成对抗网络的主动学习方法来理论分析和实证研究其特性和对学习者性能的重要性。

Dec, 2023

具有状态的模仿学习与转移动力学不匹配

本文介绍了一种新的基于状态的模仿学习算法，借助最近的对抗模仿学习方法，通过将总体优化目标分解为两个子问题并迭代地解决这些子问题，解决了专家和模仿者 MDPs 之间的过渡动力学不匹配问题。作者还通过 OpenAI Gym 的 MuJoCo 运动任务构造了几个有趣的 Markov 决策过程，分析表明该算法在存在过渡动力学不匹配现象时特别有效，而基线 IL 方法则会导致性能下降。

Feb, 2020

分治学习模仿

本文介绍了一种基于序列归纳偏置的，从专家轨迹的状态中模仿复杂机器人任务并实现优化的新算法，将复杂任务拆分成较小的技能，将技能训练为 (goal-conditioned policy)，以便能够逐个解决每个技能并连接技能以完成整个任务，同时证明了该方法经过了无须几个未经过训练的样例即可实现了非完整导航任务和复杂的仿真机器人操作任务。

Apr, 2022

从观测中学习模仿最新进展

本文为观察式模仿学习提供了文献综述，并指出了一些开放性研究问题和未来可行性工作。

May, 2019

高效示教学习的规划

提出了 EfficientImitate 这一基于规划的模仿学习方法，成功地将两类看似不兼容的模仿算法：行为克隆和对抗模仿学习，自然地统一到了一个框架中，实现了在性能和样本效率方面的高水平。

Oct, 2022

具有逆动力学表示的稳健视觉模仿学习

我们提出了一种新颖的鲁棒模仿学习方法，通过发展逆动力学状态表示学习目标来对齐专家环境和学习环境，通过设计有效的奖励函数来度量行为数据和专家数据之间的相似性，从而在各种视觉扰动和视觉控制任务中实现近乎专家的性能，并显著优于当前最先进的视觉模仿学习方法和鲁棒模仿学习方法。

Oct, 2023