多任务强化学习中的知识精炼优化传递

Sep, 2023

多任务强化学习中的知识精炼优化传递

Distill Knowledge in Multi-task Reinforcement Learning with Optimal-Transport Regularization

Bang Giang Le, Viet Cuong Ta

TL;DR通过使用 Sinkhorn 映射来替换 Kullback-Leibler 散度，进一步提高多任务强化学习的数据效率，并通过实验证明新增的基于最优传输的奖励可以加速智能体的学习过程，优于多任务学习中的几个基准模型。

Abstract

In multi-task reinforcement learning, it is possible to improve the data efficiency of training agents by transferring knowledge from other different but related tasks. Because the experiences from different tasks are usually biased toward the specific task goals. Traditional methods r

multi-task reinforcement learning knowledge transfer kullback-leibler regularization optimal transport-based regularization grid-based navigation

发现论文，激发创造

结合强化学习和最优传输的旅行商问题

利用熵正则化最优传输技术作为深度强化学习网络中的一层，以实现更快速的学习并在端到端训练期间强制执行分配约束和规定，从而对于解决组合优化问题的效率进行优化。

Mar, 2022

最优传输辅助的风险敏感 Q-Learning

通过将最优输运理论融入 Q-learning 框架，本文提出一种风险敏感的 Q-learning 算法来增强智能体的安全性，以期在优化策略的期望回报的同时，最小化策略的稳态分布与预先定义的风险分布之间的 Wasserstein 距离，从而减少访问危险状态的频率并比传统的 Q-learning 算法更快地趋于稳定的策略。

Jun, 2024

风险感知强化学习基于最优输运理论

该论文以最优传输理论（OT）为基础，通过修改目标函数，提出了一种风险感知的强化学习框架，以确保决策的可靠性，并且在最大化预期回报的同时，尊重通过状态访问分布和期望风险配置之间的 OT 距离所规定的风险约束。通过利用 OT 的数学精度，论文提供了一种能够将风险考虑与传统强化学习目标相平衡的公式化方法，通过一系列定理来证明了风险分布、最优值函数和策略行为之间的关系。该研究通过 OT 的视角为强化学习提供了一个有前景的方向，确保奖励追求与风险意识的平衡融合。

Sep, 2023

关于通过最优转运在模仿学习中结合专家示范的研究

使用多边际最优传输距离的替代方法，实现了在 OT 意义下多个和多样化状态轨迹的组合，提供了更合理的演示几何平均值，从而使代理从多个专家中学习，并在 OpenAI Gym 控制环境中进行了效率分析，表明标准方法并不总是最优的。

Jul, 2023

正则化最优输运的理论是基于地面成本对抗的

本研究提出了一个新的正则化解释角度，即将正则化视为一种鲁棒性机制，展示了任何凸正则化的 OT 都可以被解释为接受对手 -- 地面成本的方式。这同时可以在地面空间上提供鲁棒的不相似性度量方法，并提出了相应的算法和实验性说明了这种方法的优越性。

Feb, 2020

正则化最优输运及 Rot Mover's 距离

本文提出了一种针对离散最优输运问题的平滑凸正则化统一框架，并基于 Bregman 差异将正则化最优输运等效于矩阵相似问题，其中的算法包括基于 Sinkhorn-Knopp 以及 Dykstra 的交替投影算法，以及基于牛顿 - 拉夫逊法的扩展算法。此外，还将该框架应用到了机器学习和信息几何等领域，并通过实验进行了验证。

Oct, 2016

逆强化学习中通过最优传输理论理解奖励模糊性

该论文利用最优传输理论（OT）提供了一个新的视角，通过利用最优传输中的 Wasserstein 距离，建立了一个几何框架，可以量化奖励的模糊性，并确定奖励函数的中心表示或重心，为几何解释锚定的稳健逆 RL 方法提供了结构化的方法来解决高维奖励模糊问题。

Oct, 2023

实证正则化最优输运：统计理论和应用

本文通过隐函数定理和 Monte Carlo 模拟的方法，证明了针对有限度量空间上概率分布的经验正则化最优传输距离，尤其是 Sinkhorn 散度的极限分布为高斯分布，同时说明 Bootstrap 方法的一致性，证明了该结论的计算和统计学应用。

Oct, 2018

离线模仿学习的最优输运

本文介绍一种基于 Optimal Transport Reward 标注的离线增强学习算法，通过算法赋予数据集中的未标注轨迹相似性度量作为奖励信号，实现数据驱动的决策制定策略学习，并在 D4RL 数据集上验证了其性能。

Mar, 2023

Tsallis 正则化的最优输运与生态推断

本文提出了一种新的优化传输框架：Tsallis 正则化最优传输（ rot），将 Monge-Kantorovitch 和 Sinkhorn-Cuturi 两种主要的最优传输方法统一在一起，并将 Wasserstein 到 Kullback-Leibler 之间的一系列失真扭曲纳入考虑，拓展了原有方法的适用范围。在社会科学研究中的重大应用中，它提供了一个方便的框架：当存在侧面信息时，可以计算优化传输方案本身的联合分布。通过 2012 年美国总统选举的数据实验，证明了该方法在还原种族和选民偏好的联合分布方面的潜力。

Sep, 2016