模仿策略与环境的误差界

Oct, 2020

Error Bounds of Imitating Policies and Environments

Tian Xu, Ziniu Li, Yang Yu

TL;DR通过分析基于遗传对抗生成模型的模仿方法与基于行为克隆的模仿方法之间的价值差异，本文发现前者相比后者可以减少复合误差，具有更好的样本复杂度，同时也可以被用于学习环境模型的模仿学习方法可以更加有效地模仿环境模型，提出一种全新的模型导向的增强学习应用方向。

Abstract

imitation learning trains a policy by mimicking expert demonstrations. Various imitation methods were proposed and empirically evaluated, meanwhile, their theoretical understanding needs further studies. In this paper, we firstly analyze the value gap between the expert policy and imit

imitation learning generative adversarial imitation behavioral cloning sample complexity model-based reinforcement learning

发现论文，激发创造

关于模仿学习价值偏差的研究

本文提出了一种基于差异传播分析法来分析模仿学习方法理论特性的框架，该框架揭示了模仿学习方法在不同设置下的价值差异。通过理论与实验的结合，我们首次分析了 GAIL 的性能表现，并发现该方法具备比行为克隆更少的复利误差，这为模仿学习算法的未来改进提供了启示。

Nov, 2019

生成对抗模仿学习

提出了一种提取专家行为策略的新框架，直接从数据中提取策略，将模仿学习与生成对抗网络进行比拟，提出了无模型模仿学习算法，并证明该算法在模仿大型、高维度环境中的复杂行为时相对于现有无模型模仿学习方法具有明显性能提升。

Jun, 2016

模仿学习中的因果混淆

利用行为克隆将策略学习简化为监督学习，但忽略因果关系可能导致因果误识问题，可通过相应的干预（环境交互或专家查询）确定正确的因果模型来解决。研究表明，该问题在多个领域中都存在，例如控制问题和驾驶问题，并经过了与 DAgger 等基线和消融进行验证。

May, 2019

基于反向模型的少量演示稳健仿真

本文提出了一种基于生成式反向动力学模型的行为克隆方法以解决自我学习表现不佳的问题，利用模型产生短期想象轨迹进行训练，提高了模型的健壮性和适应性。

Oct, 2022

多样行为的鲁棒性模仿

本文提出了一种基于变分自编码器的策略嵌入方法，相比传统的监督学习方法和生成对抗网络的模仿学习，该方法可以从更少的示范数据中学习到更为鲁棒的控制器，并避免了模式坍塌现象。

Jul, 2017

多智能体生成对抗模仿学习

本文提出了一种新的适用于多智能体环境的 Multi-Agent 模仿学习框架，它建立在广义反向强化学习的基础上，并引入了实用的多智能体演员 - 评论家算法。该方法可用于多个合作或竞争代理的高维环境中模仿复杂的行为。

Jul, 2018

通过对抗性模仿从动作捕捉学习人类行为

本文介绍应用生成对抗性模仿学习方法，通过有限的高维仿人体运动演示数据，训练神经网络策略以产生类人的运动模式，并利用该方法构建子技能策略解决高维身体姿态控制任务。

Jul, 2017

高效的保守世界模型下的模仿学习

我们通过对专家演示进行政策学习来解决没有奖励函数的问题，并提出了将模仿学习视为微调问题的方法，通过在高维原始像素观测中在 Franka Kitchen 环境上取得了最新的最佳性能，只需要 10 个演示且没有奖励标签，同时解决了复杂的灵巧操作任务。

May, 2024

用生成对抗网络模仿驾驶员行为

采用生成式对抗模仿学习模型训练递归策略，提高了人类驾驶行为仿真在智能交通系统应用中的准确性，具有较高的实用性。

Jan, 2017

EvIL：演化策略用于可广泛应用的模仿学习

在仿真学习中，我们通过整合奖励模型集合以及使用演化策略方法 EvIL 来提高重新训练和迁移性能，同时加速目标环境中的重新训练，在连续控制任务中比之前的工作更加高效地重新训练策略。

Jun, 2024