逆强化学习中通过最优传输理论理解奖励模糊性

Oct, 2023

逆强化学习中通过最优传输理论理解奖励模糊性

Understanding Reward Ambiguity Through Optimal Transport Theory in Inverse Reinforcement Learning

Ali Baheri

TL;DR该论文利用最优传输理论（OT）提供了一个新的视角，通过利用最优传输中的 Wasserstein 距离，建立了一个几何框架，可以量化奖励的模糊性，并确定奖励函数的中心表示或重心，为几何解释锚定的稳健逆 RL 方法提供了结构化的方法来解决高维奖励模糊问题。

Abstract

In inverse reinforcement learning (IRL), the central objective is to infer underlying reward functions from observed expert behaviors in a way that not only explains the given data but also generalizes to unseen

inverse reinforcement learning reward functions optimal transport theory geometric framework reward ambiguity

发现论文，激发创造

风险感知强化学习基于最优输运理论

该论文以最优传输理论（OT）为基础，通过修改目标函数，提出了一种风险感知的强化学习框架，以确保决策的可靠性，并且在最大化预期回报的同时，尊重通过状态访问分布和期望风险配置之间的 OT 距离所规定的风险约束。通过利用 OT 的数学精度，论文提供了一种能够将风险考虑与传统强化学习目标相平衡的公式化方法，通过一系列定理来证明了风险分布、最优值函数和策略行为之间的关系。该研究通过 OT 的视角为强化学习提供了一个有前景的方向，确保奖励追求与风险意识的平衡融合。

Sep, 2023

离线模仿学习的最优输运

本文介绍一种基于 Optimal Transport Reward 标注的离线增强学习算法，通过算法赋予数据集中的未标注轨迹相似性度量作为奖励信号，实现数据驱动的决策制定策略学习，并在 D4RL 数据集上验证了其性能。

Mar, 2023

Wasserstein 对抗性模仿学习

本文研究 Imitation Learning，结合 Optimal Transport 提出 Wasserstein Adversarial Imitation Learning 来更高效地解决 inverse reinforcement learning 中 reward function 问题。在机器人实验中，该方法只需一个 expert demonstration 即可实现显著提升。

Jun, 2019

学习用于最优输运的代价函数

本文提出了一种无约束凸优化形式的逆向最优输运问题，其中包括了两种数字算法，并使用深度神经网络参数化成本函数，以此解决了现有逆向最优输运方法中前向计算瓶颈的问题，并展示了这种方法的高效性和准确性。

Feb, 2020

在外科机器人环境中利用最优传输优化离线强化学习

介绍了一种新颖的算法 Optimal Transport Reward（OTR）标记，用于给离线轨迹分配奖励，并且使用少量高质量的专家示范来帮助计算奖励信号。通过在手术机器人学习领域展示 OTR 的有效性，强调其多样性和促进强化学习在各个领域上部署的潜力。

Oct, 2023

最优输运理论与多智体强化学习之间的协同作用

这篇论文研究了最优输运理论与多智能体强化学习的整合，利用最优输运处理分布和运输问题以增强多智能体强化学习的效率、协作性和适应性。优化资源分配、协调智能体政策、适应动态环境变化和提高能源效率是最优输运对多智能体强化学习产生的影响的五个关键领域。这篇论文阐述了最优输运与多智能体强化学习的协同作用如何解决可扩展性问题、优化资源分配，在合作环境中协调智能体政策，并确保在动态变化条件下的适应性。

Jan, 2024

网络上的模仿正则化最优输运：可证明的鲁棒性与物流规划应用

通过在网络上模拟学习、应用强化学习和逆向学习的方法，研究人员探索了网络系统在提高稳健性方面的新途径，并利用先验知识模拟了给定先验分布，证明了这种模型的稳健性和应用价值。

Feb, 2024

多任务强化学习中的知识精炼优化传递

通过使用 Sinkhorn 映射来替换 Kullback-Leibler 散度，进一步提高多任务强化学习的数据效率，并通过实验证明新增的基于最优传输的奖励可以加速智能体的学习过程，优于多任务学习中的几个基准模型。

Sep, 2023

通过正则化逆强化学习实现奖励可转移性

逆强化学习旨在从专家示范中推断出奖励，但奖励与最优策略不唯一，本文提出主角度作为衡量转移规律相似性和差异性的更精细度量，建立了两个关键结果：1）当学习来自至少两个转移规律明显不同的专家时，对任何转移规律的可转移性提供了足够条件；2）当从单个专家学习时，对转移规律的局部变化的可转移性提供了足够条件，并提供了概率近似正确（PAC）算法和端到端分析，用于从多个专家的示范中学习可转移的奖励。

Jun, 2024

最优传输辅助的风险敏感 Q-Learning

通过将最优输运理论融入 Q-learning 框架，本文提出一种风险敏感的 Q-learning 算法来增强智能体的安全性，以期在优化策略的期望回报的同时，最小化策略的稳态分布与预先定义的风险分布之间的 Wasserstein 距离，从而减少访问危险状态的频率并比传统的 Q-learning 算法更快地趋于稳定的策略。

Jun, 2024