使用 Wasserstein 距离正则化的强化学习，应用于多策略学习

Feb, 2018

使用 Wasserstein 距离正则化的强化学习，应用于多策略学习

Reinforcement Learning with Wasserstein Distance Regularisation, with Applications to Multipolicy Learning

Mohammed Amin Abdullah, Aldo Pacchiano, Moez Draief

TL;DR该研究描述了 Wasserstein 距离应用于强化学习中的情形，通过量化不同策略的分布之间的差异，使用 Wasserstein 正则化器学习多个不同的策略。

Abstract

We describe an application of wasserstein distance to reinforcement learning. The wasserstein distance in question is between the distribu

wasserstein distance reinforcement learning metric space policy regulariser

发现论文，激发创造

使用 Wasserstein Loss 进行学习

本文提出了一个基于 Wasserstein 距离的多标签学习损失函数，基于概率度量体提供了一种自然的概念。该算法可以有效鼓励模型在输出空间中使用所选度量的平滑性，并用 Yahoo Flickr Creative Commons 数据集上的标签预测问题验证了性能。

Jun, 2015

指导策略优化的行为评分学习

通过使用 Wasserstein 距离在新定义的潜在行为空间中比较强化学习策略，我们引入了一种新方法，展示了通过使用 Wasserstein 距离的二元制定，可以学习策略行为的得分函数，用于引导 / 远离所需 / 不需要的行为，并将正则化项加入两个新的策略训练算法中。在一系列具有挑战性的环境中展示了比现有方法更好的表现。同时我们提供开源演示。

Jun, 2019

带有 Wasserstein 约束的强化学习

本文提出了一种使用 Wasserstein 距离测量参考转换核扰动的 Robust Reinforcement Learning 算法 -WRAAC，该算法解决了当前学习算法中对于系统动态的鲁棒性不够精确的问题，并且在 Cart-Pole 环境中得到了验证。

Jun, 2020

鲁棒的 Wasserstein 分布推断及其在机器学习中的应用

本文研究表明多个机器学习评估器，包括平方根 LASSO 和正则化逻辑回归，可以表示为分布鲁棒优化问题的解决方案，其相关的不确定区域基于适当定义的 Wasserstein 距离。因此，我们的表示使我们能够将正则化视为引入人为对手的结果，该对手扰动经验分布以考虑损失估计中的样外效应。此外，我们引入了 RWPI（Robust Wasserstein Profile Inference），这是一种新颖的推断方法，它将启发式似然性方法的使用扩展到最优传输成本的设置中（其中 Wasserstein 距离是一个特殊情况）。我们使用 RWPI 展示如何最优地选择不确定性区域的大小，从而能够选择这些机器学习评估器的正则化参数，而不使用交叉验证。数值实验也给出了验证我们理论发现的结果。

Oct, 2016

基于 Wasserstein 多样性丰富正则化的层次强化学习

通过最大化行动分布之间的 Wasserstein 距离，我们提出了一种新的任务不可知的正则化器 (WDER) 来增加子策略的多样性，实验证明我们的 WDER 可以提高性能和样本效率。

Aug, 2023

强化学习中的对抗内在动机

论文研究了使用 Wasserstein-1 距离优化策略在强化学习特别是目标导向学习中的应用，提出了一种基于 Adversarial Intrinsic Motivation 的算法并应用于 Hindsight Experience Replay 以加速学习。

May, 2021

基于 Wasserstein 距离的分布鲁棒策略学习

研究了采用分布鲁棒优化方法（distributionally robust optimization，DRO）来推断个性化治疗规则（individualized treatment rules，ITRs）的估计器在新设置中的应用，包括 Wasserstein distance-based ambiguity characterizations 和其在目标人群中的理论表现的评估。这个方法在目标人群中优于传统的策略。

May, 2022

关于 Wasserstein 强化学习和 Fokker-Planck 方程

本篇研究提出了一种基于 Wasserstein 距离限制的策略梯度方法，并通过研究发现在 Wasserstein 距离上小步长时，策略的动态特性遵循 Fokker-Planck 方程，能够解释概率匹配设置下的收敛特性。

Dec, 2017

基于 Wasserstein 分配鲁棒性的上下文强化学习策略评估与学习

提出了一种利用 Wasserstein 距离的分布鲁棒优化方法，用于解决环境不匹配的问题，并提供了理论分析和实证验证。

Sep, 2023

使用 Wasserstein 距离进行极小极大统计学习

本论文基于 Wasserstein 空间的球体不确定性集合，提出了用于统计学习的极小极大框架，并证明了涉及原始极大似然问题的覆盖数特性的一般化界限。作为一个具体的例子，我们为基于传输的域自适应问题提供了推广保证，其中源域和目标域分布之间的 Wasserstein 距离可以可靠地从未标记样本中估算。

May, 2017