作为 Wasserstein 梯度流的策略优化

ICMLAug, 2018

Policy Optimization as Wasserstein Gradient Flows

Ruiyi Zhang, Changyou Chen, Chunyuan Li, Lawrence Carin

TL;DR通过将策略优化视为概率度量空间中的 Wasserstein 梯度流，我们在数字化求解相应的离散梯度流时开发了高效算法，通过实验证明了此方法的有效性。

Abstract

policy optimization is a core component of reinforcement learning (RL), and most existing RL methods directly optimize parameters of a policy based on maximizing the expected total reward, or its surrogate. Thoug

reinforcement learning policy optimization wasserstein gradient flow probability measures algorithm

发现论文，激发创造

优化高斯混合策略的 Wasserstein 梯度流

该研究提出了一种新的机器人策略优化方法，将策略更新视为一个最优输运问题，并利用高斯混合模型和 Riemannian 优化方法来优化机器人的运动策略，该方法在多个机器人任务中表现出更高的成功率和较低的方差。

May, 2023

变分 Wasserstein 梯度流

本文提出一种应用于概率分布空间优化问题中的变分形式的 Wasserstein 梯度流方法，该方法利用了内部批量样本更新，实现了良好定义和有意义的目标函数下的梯度流构造，并在合成和真实高维数据集的实验中展示了其性能和可扩展性。

Dec, 2021

关于策略梯度方法的理论：最优性、逼近和分布偏移

本文研究了策略梯度方法在强化学习中的应用，提供了在马尔可夫决策过程中对其计算、逼近和样本量特征的可证特征化，并探究了参数化策略和表格化策略参数化的差异，其中一个主要贡献是提供了平均情况下的逼近保证，通过与分布转变下的监督学习形式上的联系来避免了最坏情况下对状态空间大小的显式依赖。

Aug, 2019

策略梯度算法通过延续隐式优化

本研究提供了关于策略梯度算法的新的理论解释和证明。同时，文章还提出，策略梯度算法中的探索是计算当前政策回报的连续，而策略的方差应该是适应历史的函数，以避免局部极值，而不是为了最大化政策的回报。

May, 2023

关于 Wasserstein 强化学习和 Fokker-Planck 方程

本篇研究提出了一种基于 Wasserstein 距离限制的策略梯度方法，并通过研究发现在 Wasserstein 距离上小步长时，策略的动态特性遵循 Fokker-Planck 方程，能够解释概率匹配设置下的收敛特性。

Dec, 2017

基于轨迹的离线深度强化学习

本文提出一种改进的基于 policy gradient 的强化学习算法，通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术，提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明，相较于标准的 policy gradient 方法，该算法能够成功可靠地使用更少的系统交互来学习解决方案。

May, 2019

用随机策略梯度学习最优确定性策略

通过比较基于动作和基于参数的探索，本论文介绍了一种理论框架以及对全局收敛性的研究，用于理解强化学习中连续问题的策略梯度方法，可以通过学习确定性策略来优化采样复杂度和性能之间的权衡。

May, 2024

梯度下降优化在策略梯度方法中的实证分析：我的最优解去哪了？

本论文研究不同的梯度下降优化方法对深度强化学习的影响，并发现适应性优化器有一个有效学习率的狭窄窗口，同时动量的有效性会因环境属性而异，为深度强化学习算法的优化提供了新的思路和建议。

Oct, 2018

政策优化中的乐观和适应性

本研究通过乐观性和适应性对政策优化进行强化，从而将看似无关的算法重新表述为两个交错步骤的重复应用，并设计了一种通过元梯度学习实现的自适应乐观政策梯度算法。

Jun, 2023

指导策略优化的行为评分学习

通过使用 Wasserstein 距离在新定义的潜在行为空间中比较强化学习策略，我们引入了一种新方法，展示了通过使用 Wasserstein 距离的二元制定，可以学习策略行为的得分函数，用于引导 / 远离所需 / 不需要的行为，并将正则化项加入两个新的策略训练算法中。在一系列具有挑战性的环境中展示了比现有方法更好的表现。同时我们提供开源演示。

Jun, 2019