离线模仿学习的最优输运

ICLRMar, 2023

Optimal Transport for Offline Imitation Learning

Yicheng Luo, Zhengyao Jiang, Samuel Cohen, Edward Grefenstette, Marc Peter Deisenroth

TL;DR本文介绍一种基于 Optimal Transport Reward 标注的离线增强学习算法，通过算法赋予数据集中的未标注轨迹相似性度量作为奖励信号，实现数据驱动的决策制定策略学习，并在 D4RL 数据集上验证了其性能。

Abstract

With the advent of large datasets, offline reinforcement learning (RL) is a promising framework for learning good decision-making policies without the need to interact with the real environment. However, offline RL requires the →

offline reinforcement learning optimal transport reward labeling reward annotations dataset policy learning

发现论文，激发创造

在外科机器人环境中利用最优传输优化离线强化学习

介绍了一种新颖的算法 Optimal Transport Reward（OTR）标记，用于给离线轨迹分配奖励，并且使用少量高质量的专家示范来帮助计算奖励信号。通过在手术机器人学习领域展示 OTR 的有效性，强调其多样性和促进强化学习在各个领域上部署的潜力。

Oct, 2023

意图对齐：离线优化传输的模仿学习

通过从环境中观察专家，尽管没有明确的奖励或动作标签，但模仿智能体仍然可以学习所需行为。借助于最优传输距离的 AILOT 方法，在与数据中蕴含成对的空间距离的意图形式中对状态进行特殊表示，定义了内在奖励函数，改善了其他线下强化学习算法在稀疏奖励任务中的性能，并超过了 D4RL 基准的最新线下模仿学习算法。

Feb, 2024

通过最优输运进行离线强化学习的零样本偏好学习

提出一种新颖的零样本基于偏好的强化学习算法，利用源任务的标注偏好数据来推断目标任务的标注数据，然后利用 Gromov-Wasserstein 距离来对齐源任务和目标任务的轨迹分布，并使用 Robust Preference Transformer 模型来训练奖励函数和策略模型，其结果表明该方法具有在转移学习环境下学习偏好并能从含噪偏好标签学习奖励函数的能力。

Jun, 2023

风险感知强化学习基于最优输运理论

该论文以最优传输理论（OT）为基础，通过修改目标函数，提出了一种风险感知的强化学习框架，以确保决策的可靠性，并且在最大化预期回报的同时，尊重通过状态访问分布和期望风险配置之间的 OT 距离所规定的风险约束。通过利用 OT 的数学精度，论文提供了一种能够将风险考虑与传统强化学习目标相平衡的公式化方法，通过一系列定理来证明了风险分布、最优值函数和策略行为之间的关系。该研究通过 OT 的视角为强化学习提供了一个有前景的方向，确保奖励追求与风险意识的平衡融合。

Sep, 2023

离线强化学习的轨迹概括

通过世界转换器进行线下强化学习的离线轨迹泛化方法（OTTO）在 D4RL 基准数据集上验证了其相对于最先进的线下强化学习方法具有显著优势。

Apr, 2024

逆强化学习中通过最优传输理论理解奖励模糊性

该论文利用最优传输理论（OT）提供了一个新的视角，通过利用最优传输中的 Wasserstein 距离，建立了一个几何框架，可以量化奖励的模糊性，并确定奖励函数的中心表示或重心，为几何解释锚定的稳健逆 RL 方法提供了结构化的方法来解决高维奖励模糊问题。

Oct, 2023

观察与匹配：用规则化的最优输运算法增强模仿

本文提出了一种基于正则化最优传输的模仿学习算法，结合了轨迹匹配奖励和行为克隆，大大提高了模仿学习的速度和效率，在 20 个视觉控制任务中的实验表明，比起之前的最先进方法，该算法可以平均快七倍，并且在真实世界的机器人操作中展现了高达 90% 的平均成功率。

Jun, 2022

具有鲁棒性保障的安全增强学习的最优传输扰动

本研究提出了一种基于最优传输成本不确定性集的安全强化学习框架，通过离线学习实现效率高、理论支持强的无需对数据收集过程进行过多假设的具有鲁棒性、安全性能的表现。在真实世界的强化学习套件中证明了该方法的优越性。

Jan, 2023

结合强化学习和最优传输的旅行商问题

利用熵正则化最优传输技术作为深度强化学习网络中的一层，以实现更快速的学习并在端到端训练期间强制执行分配约束和规定，从而对于解决组合优化问题的效率进行优化。

Mar, 2022

如何运用未标记的数据进行离线强化学习

本文提出了利用未标注的数据，通过零奖励的方式来共享数据，在理论和实践中验证了该策略的有效性，并展示了如何通过简单的重新加权方法来缓解由于使用不正确的奖励标签而引入的偏置，这在模拟机器人运动、导航和操作等方面得到了证实。

Feb, 2022