一种耦合流方法的模仿学习

ICMLApr, 2023

A Coupled Flow Approach to Imitation Learning

Gideon Freund, Elad Sarafian, Sarit Kraus

TL;DR本文介绍了利用基于正态流的模型对状态分布进行估计的应用，该算法针对单个专家轨迹，在许多基准任务上都取得了最先进的表现，并自然地扩展到各种其他设置，包括子采样和仅状态制度。

Abstract

In reinforcement learning and imitation learning, an object of central importance is the state distribution induced by the policy. It play

reinforcement learning imitation learning state distribution density estimation normalizing flow

发现论文，激发创造

基于归一化流的观测式模仿学习 (IL-flOw)

本论文介绍了一种基于状态观测的逆强化学习算法 IL-flOw，其将奖励建模与策略学习解耦，并利用深度密度估计方法生成奖励信号，避免了对抗训练方法的不稳定性问题。通过使用状态转移概率密度作为正向强化学习的奖励信号，实验结果展示了在大规模机器人控制任务上的优秀表现。

May, 2022

连续状态环境中的条件核模仿学习

我们提出了一种基于马尔科夫平衡方程和条件核密度估计的模仿学习框架，通过估计环境的转移动力学和满足环境的概率平衡方程来解决连续状态空间环境中的模仿学习问题，并在连续状态基准环境的一系列数值实验中展示了优于许多最先进的模仿学习算法的实证表现。

Aug, 2023

最小概率流学习

本文提出了一种新的参数估计技术，该技术无需计算不可处理的归一化因子或从模型的平衡分布中采样，通过建立动态算法将观测到的数据分布转化为模型分布，并通过使得数据分布与运行该动态算法的分布的 KL 散度最小化来进行优化，在 Ising 模型等情况下展示比当前先进技术更快的学习效率和更低的误差。

Jun, 2009

基于 f - 差距最小化的模仿学习

本文提出了一种使用多模演示的模仿学习方法，针对现有方法中插值错误的问题，采用与专家状态 - 行动分布的正向 KL 散度相对应的反向 KL 散度，即 I-projection，作为不同 f - 散度估计和最小化的框架，并得出了比 GAIL 和行为克隆更加可靠的多模行为近似 I-projection 方法。

May, 2019

基于状态边际匹配的逆强化学习

本文提出了一种基于 f-divergence 的算法 f-IRL，通过学习奖励函数来匹配专家状态分布以优化控制任务的样本效率和行为迁移能力，并在各种 IRL 基准测试中超越了对手仿真学习方法。

Nov, 2020

通用价值密度估计 —— 对模仿学习和目标条件强化学习的应用

该研究考虑了两种不同的学习方式：模仿学习和目标条件强化学习。该研究介绍了一种基于概率长期动态和期望价值函数之间联系的方法，并利用密度估计的最新进展来有效学习达到指定状态的能力。该方法不仅在目标条件强化学习方面表现高效且不会出现事后偏差问题，在模仿学习方面也达到了标准基准任务的最新样本效率。

Feb, 2020

模仿学习方法的差异最小化视角

本文提出了一种基于分歧最小化的 Imitation Learning 方法，即 $f$-MAX，将 IRL 方法如 GAIL 和 AIRL 联系起来并揭示了它们的算法特性，通过期望最大化演算法来教授机器人在推手环境中进行多样化的行为。

Nov, 2019

训练计算密集型目标概率分布的正则化流

机器学习技术特别是所谓的标准化流在蒙特卡洛模拟中变得越来越受欢迎，因为它们可以有效地逼近目标概率分布。在格点场论中，目标分布由作用的指数给出。我们提出了一种基于 REINFORCE 算法的标准化流估计器，避免了相关的计算问题，应用于临界维度的二维 Schwinger 模型，并显示它相比重新参数化技巧估计器的墙钟时间更快，内存需求减少了 30％，数值上更稳定，并允许进行单精度计算和使用半浮点张量核心。我们深入分析了这些改进的原因，这些优点也将出现在目标概率分布计算复杂的其他领域中。

Aug, 2023

战略性非局部分布漂移的耦合梯度流

本文提出了一种新的框架，用于分析实际系统中分布转移的动态，该框架捕捉算法学习和它们所部署的分布之间的反馈循环，并针对两种常见的机器学习情景，通过偏微分方程模型证明了再训练过程的渐近收敛性，同时通过实证研究表明，该方法能够很好地捕捉自然数据中的分布变化。

Jul, 2023

精确知识传递通过流匹配

我们提出了一种新颖的知识转移框架，引入连续归一化流进行渐进知识转化，并利用多步采样策略实现精准知识传递。通过引入随机插值，我们理论上证明了 FM-KT 的训练目标相当于最小化教师特征映射或逻辑负对数似然的上界。此外，FM-KT 可以看作是一种独特的隐式集成方法，从而实现性能提升。通过对 CIFAR-100、ImageNet-1k 和 MS-COCO 数据集进行大量实验证明了我们提出的方法在相关比较方法中的可扩展性和最先进性能。

Feb, 2024