模仿学习：在可变环境中实现即插即用的模仿能力

Oct, 2023

模仿学习：在可变环境中实现即插即用的模仿能力

Imitator Learning: Achieve Out-of-the-Box Imitation Ability in Variable Environments

Xiong-Hui Chen, Junyin Ye, Hang Zhao, Yi-Chen Li, Haoran Shi...

TL;DR提出了一种名为模仿学习（ItorL）的新主题，旨在基于非常有限的专家示范实现即时重构模仿策略，用于不同的未知任务，无需任何额外的调整。通过将模仿学习集成到强化学习范式中，设计了 Demo-Attention Actor-Critic（DAAC）来解决 ItorL 问题，并为模仿者策略设计了一种基于示范的注意力架构，可以通过自适应追踪示范中的适当状态有效地输出模仿动作。在新的导航基准和机器人环境中，展示出 DAAC 在已知和未知任务上均比之前的模仿方法有着显著的优势。

Abstract

imitation learning (IL) enables agents to mimic expert behaviors. Most previous IL techniques focus on precisely imitating one policy through mass demonstrations. However, in many applications, what humans require is the ability to perform various tasks directly through a few demonstra

imitation learning imitator learning expert demonstrations adaptive tracing navigation benchmark

发现论文，激发创造

分治学习模仿

本文介绍了一种基于序列归纳偏置的，从专家轨迹的状态中模仿复杂机器人任务并实现优化的新算法，将复杂任务拆分成较小的技能，将技能训练为 (goal-conditioned policy)，以便能够逐个解决每个技能并连接技能以完成整个任务，同时证明了该方法经过了无须几个未经过训练的样例即可实现了非完整导航任务和复杂的仿真机器人操作任务。

Apr, 2022

具有状态的模仿学习与转移动力学不匹配

本文介绍了一种新的基于状态的模仿学习算法，借助最近的对抗模仿学习方法，通过将总体优化目标分解为两个子问题并迭代地解决这些子问题，解决了专家和模仿者 MDPs 之间的过渡动力学不匹配问题。作者还通过 OpenAI Gym 的 MuJoCo 运动任务构造了几个有趣的 Markov 决策过程，分析表明该算法在存在过渡动力学不匹配现象时特别有效，而基线 IL 方法则会导致性能下降。

Feb, 2020

模仿学习综述：算法、最新进展和挑战

这篇论文旨在介绍模仿学习（IL）及其基本假设和方法，提供领域内最新进展和新兴研究的详细描述，讨论了解决模仿学习相关挑战的常见方法，并提出未来研究的潜在方向，全面指导机器人和人工智能领域中日益增长的模仿学习研究。

Sep, 2023

通用策略的不变因果模仿学习

基于多个环境中的行为演示来学习模仿策略，通过学习跨域不变的特征表示，构建与专家行为匹配的模仿策略，以实现在未见环境中的泛化能力。

Nov, 2023

用于单示范模仿学习的专家接近度作为替代奖励

单个示范模仿学习浅层奖励问题通过过渡判别基于 IL 方法得到缓解，在五个广泛采用的 MuJoCo 基准测试以及 “灵巧门” 环境中，该方法胜过现有的 IL 方法且达到专家级性能。

Feb, 2024

灵活推理、规划和控制的深度仿真模型

本文提出了模仿模型方法，将模仿学习和目标导向规划相结合，使用概率预测模型生成解释性的专家级轨迹，以实现特定目标。在动态模拟自主驾驶任务中，我们的方法显著优于六种模仿学习方法和一种基于规划的方法，并可以从专家演示中高效地学习。此外，我们的方法对于目标规范不良的情况具有鲁棒性。

Oct, 2018

Actor-Mimic: 深度多任务和转移强化学习

本研究提出了一种名为 “Actor-Mimic” 的多任务学习和迁移学习方法，通过深度强化学习和模型压缩技术来训练一个单一的策略网络，并通过多个专家教师的指导来学习在不同任务中的行为，并使用先前的知识解决新任务。研究结果表明，该方法的表征能力可以通过无先验的专家指导来推广到新的任务并加速学习。本方法可以应用于多样的问题，为了说明其效果，我们在 Atari 游戏上进行了测试。

Nov, 2015

泛化自驾车策略的模仿学习及模拟转现实

本文研究应用 Imitation Learning 和 transfer learning 方法解决 Duckietown 场景下的机器人车道跟踪问题，并通过 sim-to-real 方法进行实际环境迁移，最终比较了三种 Imitation Learning 方法和两种 sim-to-real 方法的优缺点。

Jun, 2022

增强模仿学习策略的在线适应性

我们提出通过在线调整来弥补模仿学习中的失败，我们的方法将预训练策略的动作建议与专家记录的相关经验相结合，通过适应的行为更好地模仿专家策略，实验表明适应的智能体表现比纯模仿学习的对应体更好，特别是在基础策略灾难性失败时，适应的智能体仍然能够实现合理的性能。

Jun, 2024

通过提升实现对抗模仿学习

通过建立加权回放缓冲区的新算法 AILBoost，该文研究了对抗性模仿学习在离策略训练中的有效性，实验证明 AILBoost 相较于 DAC 在控制器状态和像素环境中性能更佳。

Apr, 2024