关于 Wasserstein 强化学习和 Fokker-Planck 方程

Dec, 2017

关于 Wasserstein 强化学习和 Fokker-Planck 方程

On Wasserstein Reinforcement Learning and the Fokker-Planck equation

Pierre H. Richemond, Brendan Maginnis

TL;DR本篇研究提出了一种基于 Wasserstein 距离限制的策略梯度方法，并通过研究发现在 Wasserstein 距离上小步长时，策略的动态特性遵循 Fokker-Planck 方程，能够解释概率匹配设置下的收敛特性。

Abstract

policy gradients methods often achieve better performance when the change in policy is limited to a small kullback-leibler divergence. We derive policy gradients where the change in policy is limited to a small <

policy gradients methods kullback-leibler divergence wasserstein distance fokker-planck equation probability matching setup

发现论文，激发创造

大规模 Wasserstein 梯度流

本研究介绍了一种基于输入凸神经网络的渐进 Wasserstein 流逼近方法，无需领域离散化或粒子模拟，可用于机器学习应用，例如非线性滤波。

Jun, 2021

Fokker-Planck 方程的 Wasserstein 距离收敛到平衡状态

描述了非梯度漂移扩散 Fokker-Planck 方程的条件，在 Wasserstein 距离下，解收敛到均匀指数率的平衡。这种渐近行为与一种功能不等式相关，它将距离与其耗散联系起来，并确保 Wasserstein 距离中的谱间隙。我们给出了这种不等式的实用条件，并将其与经典条件进行了比较。关键是量化扩散项对收敛速率的贡献，这在我们看来是一种新颖性。

Oct, 2011

优化高斯混合策略的 Wasserstein 梯度流

该研究提出了一种新的机器人策略优化方法，将策略更新视为一个最优输运问题，并利用高斯混合模型和 Riemannian 优化方法来优化机器人的运动策略，该方法在多个机器人任务中表现出更高的成功率和较低的方差。

May, 2023

基于 Wasserstein 分配鲁棒性的上下文强化学习策略评估与学习

提出了一种利用 Wasserstein 距离的分布鲁棒优化方法，用于解决环境不匹配的问题，并提供了理论分析和实证验证。

Sep, 2023

基于度量感知的信赖域算法保证收敛的策略优化

本文探讨基于 KL 散度的信任域方法在强化学习中的应用，进而提出基于 Wasserstein 和 Sinkhorn 两种新的信任域方法用于策略优化，并在多个任务中进行了实验验证。

Jun, 2023

作为 Wasserstein 梯度流的策略优化

通过将策略优化视为概率度量空间中的 Wasserstein 梯度流，我们在数字化求解相应的离散梯度流时开发了高效算法，通过实验证明了此方法的有效性。

Aug, 2018

使用 Wasserstein 距离正则化的强化学习，应用于多策略学习

该研究描述了 Wasserstein 距离应用于强化学习中的情形，通过量化不同策略的分布之间的差异，使用 Wasserstein 正则化器学习多个不同的策略。

Feb, 2018

带有 Wasserstein 约束的强化学习

本文提出了一种使用 Wasserstein 距离测量参考转换核扰动的 Robust Reinforcement Learning 算法 -WRAAC，该算法解决了当前学习算法中对于系统动态的鲁棒性不够精确的问题，并且在 Cart-Pole 环境中得到了验证。

Jun, 2020

通过最小化 Wasserstein-2 损失进行生成建模

通过最小化二阶 Wasserstein 损失（即 $W_2$ 损失），该论文处理无监督学习问题。论文证明了方式一通过分布相关的常微分方程（ODE）动力学的超限势潜力近似估计当前分布与真实数据分布之间的关系。主要结果显示 ODE 的时变边界概率收敛到真实数据分布。为了证明 ODE 具有唯一解，首先明确构造了与关联的非线性 Fokker-Planck 方程相关的解，并证明它与 $W_2$ 损失的唯一梯度流相吻合。基于此，通过 Trevisan 的叠加原理和指数收敛结果，构建了 ODE 的唯一解。该论文提出了一个分布相关 ODE 的欧拉方案，并在极限情况下正确恢复了 $W_2$ 损失的梯度流。通过遵循该方案和应用持久训练，设计了一个算法，其自然地适用于梯度流框架。在低维和高维实验中，我们的算法通过适当增加持久训练水平，比 Wasserstein 生成对抗网络收敛更快且性能更好。

Jun, 2024

信任区域策略优化与最优输运差异：连续动作的对偶性和算法

本文提出了一种基于 Wasserstein 距离的 Policy Optimization 算法，称为 Optimal Transport Trust Region Policy Optimization（OT-TRPO），用于连续状态 - 动作空间中的任务，通过提供一维对偶重构来避免无限维度优化问题，实现了对最优策略更新的分析推导，并在各种控制任务中进行了实验验证，证明了与最先进的方法相比，其优化效果更好。

Oct, 2022