走向模仿学习的基本极限

Sep, 2020

Toward the Fundamental Limits of Imitation Learning

Nived Rajaraman, Lin F. Yang, Jiantao Jiao, Kannan Ramachandran

TL;DR研究了在马尔可夫决策过程中，即使在给定数据集前提下，模仿专家政策的算法可能会存在次优性，并提出了一种基于最小距离函数的新算法，在确定性专家和已知转移模型的情况下，提高了最小极值速率。

Abstract

imitation learning (IL) aims to mimic the behavior of an expert policy in a sequential decision-making problem given only demonstrations. In this paper, we focus on understanding the minimax statistical limits of

imitation learning markov decision processes expert policy suboptimality transition model

发现论文，激发创造

具有状态的模仿学习与转移动力学不匹配

本文介绍了一种新的基于状态的模仿学习算法，借助最近的对抗模仿学习方法，通过将总体优化目标分解为两个子问题并迭代地解决这些子问题，解决了专家和模仿者 MDPs 之间的过渡动力学不匹配问题。作者还通过 OpenAI Gym 的 MuJoCo 运动任务构造了几个有趣的 Markov 决策过程，分析表明该算法在存在过渡动力学不匹配现象时特别有效，而基线 IL 方法则会导致性能下降。

Feb, 2020

具有未知转换的可证明高效的对抗性模仿学习

本文旨在探究在不确定转移条件下对对手模仿学习策略的理论基础。我们提出一种算法 MB-TAIL，它可以达到最小最大优化专家样本复杂度并改善了当前已知最佳算法 OAL 的交互复杂度。此外，我们通过将其扩展到函数逼近设置来展示 MB-TAIL 的泛化能力，并证明它可以实现独立于状态空间大小的专家样本和交互复杂度。

Jun, 2023

模仿学习方法的差异最小化视角

本文提出了一种基于分歧最小化的 Imitation Learning 方法，即 $f$-MAX，将 IRL 方法如 GAIL 和 AIRL 联系起来并揭示了它们的算法特性，通过期望最大化演算法来教授机器人在推手环境中进行多样化的行为。

Nov, 2019

分治学习模仿

本文介绍了一种基于序列归纳偏置的，从专家轨迹的状态中模仿复杂机器人任务并实现优化的新算法，将复杂任务拆分成较小的技能，将技能训练为 (goal-conditioned policy)，以便能够逐个解决每个技能并连接技能以完成整个任务，同时证明了该方法经过了无须几个未经过训练的样例即可实现了非完整导航任务和复杂的仿真机器人操作任务。

Apr, 2022

免去探索假设的折扣线性 MDP 中的模仿学习

我们提出了一种新的算法 ILARL 用于无限时间线性 MDP 中的模仿学习，该算法大大改进了学习者需要从环境中采样的轨迹数量的界限，并且从 ε 的收敛速度从 O (ε^-5) 改进到 O (ε^-4)，我们的结果建立在模仿学习与带有对抗性损失的 MDPs 在线学习之间的联系上。此外，我们基于有限时间线性 MDP 为 ILARL 提供了一项更为强大的结果，实现了 O (ε^-2) 的效果。线性函数逼近的数值实验证明了 ILARL 优于其他常用算法。

May, 2024

无模型模仿学习与策略优化

在模仿学习中，我们使用基于样本的方法开发了一种基于策略梯度的算法，即通过学习专家的样本轨迹，找到至少与专家策略一样好的参数化随机策略；该算法可以应用于高维度环境，并保证收敛到局部最小值。

May, 2016

反向软 Q 学习用于离线模仿与次优示范

离线模仿学习主要通过有限的专家演示和较大的次优演示来提出一种基于反向软 Q 学习的新方法，通过添加正则化项来对齐学习得到的回报函数，从而有效解决离线模仿学习中的过拟合问题和训练向次优策略靠拢的问题。该方法在标准基准测试中明显优于其他离线模仿学习方法。

Feb, 2024

多智能体系统中独立学习的近似全局收敛性

独立学习是一个常用方法来实现大规模多智能体系统的可扩展性，本文研究了两个代表性算法，在基于价值函数和策略的框架中，为近似全局收敛提供了首个有限样本分析结果。这些结果揭示了样本复杂度约为 ϵ^(-2)，考虑了智能体间的依赖关系和独立学习实现全局收敛的基本限制。为了建立这一结果，我们开发了一种新的独立学习分析方法，通过构建可分离的马尔可夫决策过程 (MDP) 进行收敛性分析，然后限制由于可分离 MDP 与原始 MDP 之间的模型差异所造成的差距。此外，我们使用合成 MDP 和电动车充电示例进行数值实验，验证了我们的理论发现并展示了独立学习的实际适用性。

May, 2024

基于观测的可证明高效仿真学习

设计了一种新的模型无关算法用于能够从观察中学习的模仿学习，可以在大规模的马尔可夫决策过程中学习得到一种近似最优的策略，具有多项式样的效率。

May, 2019

有限 MDP 中的情节式强化学习：Minimax 下界再思考

本文提出了基于问题的独立的新样本复杂度和后悔下限，重点放在了非固定转移核情况下的情况，我们提出了新的样本下限并证明了我们的发现。

Oct, 2020