意图对齐：离线优化传输的模仿学习

Feb, 2024

意图对齐：离线优化传输的模仿学习

Align Your Intents: Offline Imitation Learning via Optimal Transport

Maksim Bobrin, Nazar Buzun, Dmitrii Krylov, Dmitry V. Dylov

TL;DR通过从环境中观察专家，尽管没有明确的奖励或动作标签，但模仿智能体仍然可以学习所需行为。借助于最优传输距离的 AILOT 方法，在与数据中蕴含成对的空间距离的意图形式中对状态进行特殊表示，定义了内在奖励函数，改善了其他线下强化学习算法在稀疏奖励任务中的性能，并超过了 D4RL 基准的最新线下模仿学习算法。

Abstract

offline reinforcement learning (RL) addresses the problem of sequential decision-making by learning optimal policy through pre-collected data, without interacting with the environment. As yet, it has remained somewhat impractical, because one rarely knows the reward explicitly and it i

offline reinforcement learning imitation learning optimal transport intrinsic reward function sparse-reward tasks

发现论文，激发创造

离线模仿学习的最优输运

本文介绍一种基于 Optimal Transport Reward 标注的离线增强学习算法，通过算法赋予数据集中的未标注轨迹相似性度量作为奖励信号，实现数据驱动的决策制定策略学习，并在 D4RL 数据集上验证了其性能。

Mar, 2023

在外科机器人环境中利用最优传输优化离线强化学习

介绍了一种新颖的算法 Optimal Transport Reward（OTR）标记，用于给离线轨迹分配奖励，并且使用少量高质量的专家示范来帮助计算奖励信号。通过在手术机器人学习领域展示 OTR 的有效性，强调其多样性和促进强化学习在各个领域上部署的潜力。

Oct, 2023

观察与匹配：用规则化的最优输运算法增强模仿

本文提出了一种基于正则化最优传输的模仿学习算法，结合了轨迹匹配奖励和行为克隆，大大提高了模仿学习的速度和效率，在 20 个视觉控制任务中的实验表明，比起之前的最先进方法，该算法可以平均快七倍，并且在真实世界的机器人操作中展现了高达 90% 的平均成功率。

Jun, 2022

通过最优传输从观察中进行模仿学习

实时观察下的模仿学习 (ILfO) 中，利用最优传输来生成奖励函数，通过状态轨迹的 Wasserstein 距离衡量学习者和专家之间的差异，无需学习模型或对抗学习，可以与任何强化学习算法集成，并适用于 ILfO，能在多个连续控制任务中超越现有方法，在单个专家轨迹无动作观测的情况下实现专家级性能。

Oct, 2023

关于通过最优转运在模仿学习中结合专家示范的研究

使用多边际最优传输距离的替代方法，实现了在 OT 意义下多个和多样化状态轨迹的组合，提供了更合理的演示几何平均值，从而使代理从多个专家中学习，并在 OpenAI Gym 控制环境中进行了效率分析，表明标准方法并不总是最优的。

Jul, 2023

Wasserstein 对抗性模仿学习

本文研究 Imitation Learning，结合 Optimal Transport 提出 Wasserstein Adversarial Imitation Learning 来更高效地解决 inverse reinforcement learning 中 reward function 问题。在机器人实验中，该方法只需一个 expert demonstration 即可实现显著提升。

Jun, 2019

离线强化学习的极简主义方法

通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据，在保持简单性的同时，最大限度地提高了运行效率，从而实现了与现有离线 RL 算法相当的性能。

Jun, 2021

离线强化学习的多目标决策 Transformer

离线强化学习以多目标优化问题的形式重新定义为序列建模任务，引入动作空间区域以解决变换模型的关注机制在输入上分配变化注意权重的潜在问题。实验证明这些提议使得变换模型更有效地利用关注机制，达到或超过当前最先进方法的性能。

Aug, 2023

利用离线数据加速程序生成环境下的强化学习

研究了强化学习中采用离线轨迹进行数据增强的方法，发现采用离线轨迹进行前置训练或同时进行在线强化学习和离线轨迹训练均能提高样本效率和收敛到最优策略，预训练只需要两条轨迹数据即可对最终学习结果产生较大影响。

Apr, 2023

一种面向离线强化学习的策略引导仿真方法

该研究提出了一种 Policy-guided Offline RL 算法，该算法在训练时将想法分解为指导策略和执行策略，并通过指导策略来指导执行策略以实现状态组合性。该算法在离线 RL 的标准基准 D4RL 上展示了最高效的性能，并可以通过改变指导策略来轻松适应新的任务。

Oct, 2022