关于通过最优转运在模仿学习中结合专家示范的研究

Jul, 2023

关于通过最优转运在模仿学习中结合专家示范的研究

On Combining Expert Demonstrations in Imitation Learning via Optimal Transport

Ilana Sebag, Samuel Cohen, Marc Peter Deisenroth

TL;DR使用多边际最优传输距离的替代方法，实现了在 OT 意义下多个和多样化状态轨迹的组合，提供了更合理的演示几何平均值，从而使代理从多个专家中学习，并在 OpenAI Gym 控制环境中进行了效率分析，表明标准方法并不总是最优的。

Abstract

imitation learning (IL) seeks to teach agents specific tasks through expert demonstrations. One of the key approaches to IL is to define a distance between agent and expert and to find an agent policy that minimi

imitation learning optimal transport methods agent policy multi-marginal optimal transport distance openai gym control environments

发现论文，激发创造

通过最优传输从观察中进行模仿学习

实时观察下的模仿学习 (ILfO) 中，利用最优传输来生成奖励函数，通过状态轨迹的 Wasserstein 距离衡量学习者和专家之间的差异，无需学习模型或对抗学习，可以与任何强化学习算法集成，并适用于 ILfO，能在多个连续控制任务中超越现有方法，在单个专家轨迹无动作观测的情况下实现专家级性能。

Oct, 2023

意图对齐：离线优化传输的模仿学习

通过从环境中观察专家，尽管没有明确的奖励或动作标签，但模仿智能体仍然可以学习所需行为。借助于最优传输距离的 AILOT 方法，在与数据中蕴含成对的空间距离的意图形式中对状态进行特殊表示，定义了内在奖励函数，改善了其他线下强化学习算法在稀疏奖励任务中的性能，并超过了 D4RL 基准的最新线下模仿学习算法。

Feb, 2024

观察与匹配：用规则化的最优输运算法增强模仿

本文提出了一种基于正则化最优传输的模仿学习算法，结合了轨迹匹配奖励和行为克隆，大大提高了模仿学习的速度和效率，在 20 个视觉控制任务中的实验表明，比起之前的最先进方法，该算法可以平均快七倍，并且在真实世界的机器人操作中展现了高达 90% 的平均成功率。

Jun, 2022

跨领域最优输运模仿学习

本研究提出了一种基于 Gromov-Wasserstein 距离的 “GWIL” 方法，用于跨领域模仿学习，其理论模型明确了 GWIL 保持最优性的场景和实现方式，实验结果表明 GWIL 对于连续控制域中各种变换的效果良好。

Oct, 2021

多任务强化学习中的知识精炼优化传递

通过使用 Sinkhorn 映射来替换 Kullback-Leibler 散度，进一步提高多任务强化学习的数据效率，并通过实验证明新增的基于最优传输的奖励可以加速智能体的学习过程，优于多任务学习中的几个基准模型。

Sep, 2023

用于单示范模仿学习的专家接近度作为替代奖励

单个示范模仿学习浅层奖励问题通过过渡判别基于 IL 方法得到缓解，在五个广泛采用的 MuJoCo 基准测试以及 “灵巧门” 环境中，该方法胜过现有的 IL 方法且达到专家级性能。

Feb, 2024

Wasserstein 对抗性模仿学习

本文研究 Imitation Learning，结合 Optimal Transport 提出 Wasserstein Adversarial Imitation Learning 来更高效地解决 inverse reinforcement learning 中 reward function 问题。在机器人实验中，该方法只需一个 expert demonstration 即可实现显著提升。

Jun, 2019

具有状态的模仿学习与转移动力学不匹配

本文介绍了一种新的基于状态的模仿学习算法，借助最近的对抗模仿学习方法，通过将总体优化目标分解为两个子问题并迭代地解决这些子问题，解决了专家和模仿者 MDPs 之间的过渡动力学不匹配问题。作者还通过 OpenAI Gym 的 MuJoCo 运动任务构造了几个有趣的 Markov 决策过程，分析表明该算法在存在过渡动力学不匹配现象时特别有效，而基线 IL 方法则会导致性能下降。

Feb, 2020

结合强化学习和最优传输的旅行商问题

利用熵正则化最优传输技术作为深度强化学习网络中的一层，以实现更快速的学习并在端到端训练期间强制执行分配约束和规定，从而对于解决组合优化问题的效率进行优化。

Mar, 2022

离线模仿学习的最优输运

本文介绍一种基于 Optimal Transport Reward 标注的离线增强学习算法，通过算法赋予数据集中的未标注轨迹相似性度量作为奖励信号，实现数据驱动的决策制定策略学习，并在 D4RL 数据集上验证了其性能。

Mar, 2023