原始 Wasserstein 模仿学习

ICLRJun, 2020

Primal Wasserstein Imitation Learning

Robert Dadashi, Léonard Hussenot, Matthieu Geist, Olivier Pietquin

TL;DR本文提出了一种新的基于 Primal Wasserstein Imitation Learning（PWIL）算法的 Imitation Learning method，通过离线推导奖励函数，在 MuJoCo 领域的多个连续控制任务中实现了高效的样本复原，并且匹配的是 Wasserstein 距离，而非常用的性能代理。

Abstract

imitation learning (IL) methods seek to match the behavior of an agent with that of an expert. In the present work, we propose a new IL method based on a conceptually simple algorithm: Primal Wasserstein imitation learn

imitation learning primal wasserstein imitation learning reward function continuous control tasks wasserstein distance

发现论文，激发创造

以 Wasserstein 距离为导向的对抗模仿学习，结合奖励形状探索

本文提出的名为 WDAIL 的新算法，在采用 Wasserstein 距离、Proximal Policy Optimization 技术和不同的奖励函数形状等三个方面做了改进，提高了模拟学习的性能，并在 MuJoCo 的复杂连续控制任务中取得了显著性能。

Jun, 2020

Wasserstein 对抗性模仿学习

本文研究 Imitation Learning，结合 Optimal Transport 提出 Wasserstein Adversarial Imitation Learning 来更高效地解决 inverse reinforcement learning 中 reward function 问题。在机器人实验中，该方法只需一个 expert demonstration 即可实现显著提升。

Jun, 2019

基于原始 Wasserstein 状态占有匹配的离线观察仿真

通过使用观察结果进行离线学习，我们提出一种新的方法称为 Primal Wasserstein DICE，通过最小化原始 Wasserstein 距离来改进分布校正估计，并在多个测试平台上进行实证评估。

Nov, 2023

跨领域最优输运模仿学习

本研究提出了一种基于 Gromov-Wasserstein 距离的 “GWIL” 方法，用于跨领域模仿学习，其理论模型明确了 GWIL 保持最优性的场景和实现方式，实验结果表明 GWIL 对于连续控制域中各种变换的效果良好。

Oct, 2021

强化学习中的对抗内在动机

论文研究了使用 Wasserstein-1 距离优化策略在强化学习特别是目标导向学习中的应用，提出了一种基于 Adversarial Intrinsic Motivation 的算法并应用于 Hindsight Experience Replay 以加速学习。

May, 2021

模仿正则化的离线学习

本研究讨论在上下文幸存者模型下自动化决策系统的离线学习问题，提出了一种通过策略改进和正则化来解决 IPWE 中参数估计不准的问题的方法。实验证明，该方法在无概率记录情况下比目前最先进的 CE 损失更准确，而在有概率记录的情况下，可以帮助我们排除混淆变量或模型规范化失误。

Jan, 2019

最大化 Wasserstein 距离的内在控制

本文提出了一种通过最大化状态访问的 Wasserstein 距离学习最大化技能的代理奖励的方法，这种方法比基于多样性的目标导向策略在 MDP 中的覆盖范围更广，并在各种 Atari 环境中验证了结果。

Oct, 2021

通过最优传输从观察中进行模仿学习

实时观察下的模仿学习 (ILfO) 中，利用最优传输来生成奖励函数，通过状态轨迹的 Wasserstein 距离衡量学习者和专家之间的差异，无需学习模型或对抗学习，可以与任何强化学习算法集成，并适用于 ILfO，能在多个连续控制任务中超越现有方法，在单个专家轨迹无动作观测的情况下实现专家级性能。

Oct, 2023

离线交互数据的距离加权监督学习

该研究介绍了一个名为 DWSL 的距离加权监督学习方法，用于从线下数据中学习目标条件策略，通过加权行动以估计最短路径距离，能够在高维图像领域中超过先前的目标条件 IL 和 RL 算法的性能。

Apr, 2023

从亚优示例中进行判别器加权的离线模仿学习

本文介绍了一种利用 offline dataset 和 behavioral cloning 来解决 offline imitation learning 问题的算法，该算法额外引入了一个鉴别器来区分专家和非专家数据，并将其输出作为 behavioural cloning 的损失权重，实验结果表明该算法可以提高回报率和训练速度。

Jul, 2022