优化高斯混合策略的 Wasserstein 梯度流

May, 2023

优化高斯混合策略的 Wasserstein 梯度流

Wasserstein Gradient Flows for Optimizing Gaussian Mixture Policies

Hanna Ziesche, Leonel Rozo

TL;DR该研究提出了一种新的机器人策略优化方法，将策略更新视为一个最优输运问题，并利用高斯混合模型和 Riemannian 优化方法来优化机器人的运动策略，该方法在多个机器人任务中表现出更高的成功率和较低的方差。

Abstract

Robots often rely on a repertoire of previously-learned motion policies for performing tasks of diverse complexities. When facing unseen task conditions or when new task requirements arise, robots must adapt their motion policies accordingly. In this context, policy optimization is the

robotics policy optimization gaussian mixture models wasserstein gradient flow riemannian optimization

发现论文，激发创造

作为 Wasserstein 梯度流的策略优化

通过将策略优化视为概率度量空间中的 Wasserstein 梯度流，我们在数字化求解相应的离散梯度流时开发了高效算法，通过实验证明了此方法的有效性。

Aug, 2018

关于 Wasserstein 强化学习和 Fokker-Planck 方程

本篇研究提出了一种基于 Wasserstein 距离限制的策略梯度方法，并通过研究发现在 Wasserstein 距离上小步长时，策略的动态特性遵循 Fokker-Planck 方程，能够解释概率匹配设置下的收敛特性。

Dec, 2017

基于轨迹的离线深度强化学习

本文提出一种改进的基于 policy gradient 的强化学习算法，通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术，提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明，相较于标准的 policy gradient 方法，该算法能够成功可靠地使用更少的系统交互来学习解决方案。

May, 2019

变分 Wasserstein 梯度流

本文提出一种应用于概率分布空间优化问题中的变分形式的 Wasserstein 梯度流方法，该方法利用了内部批量样本更新，实现了良好定义和有意义的目标函数下的梯度流构造，并在合成和真实高维数据集的实验中展示了其性能和可扩展性。

Dec, 2021

基于 Wasserstein 距离的数据驱动分布鲁棒优化：性能保证和可行重构

研究使用 Wasserstein metric 中有限训练数据集，构建球形分布空间来解决分布鲁棒优化问题，并阐述其在投资组合优化和不确定性量化等领域的实用性和性能保证。

May, 2015

小批量 Wasserstein 学习：渐近和梯度特性

本文对最优传输距离的使用进行了探索，指出在大规模数据集上计算这些距离的方法是通过平均几个较小的最优传输问题的结果。我们论证了这种方法等效于原问题的隐式正则化，并具有无偏估计，梯度和期望值周围的集中度约束等吸引人的属性。同时我们还开展了梯度流、GAN 或颜色转换等经验实验，以突出这种策略的实际价值。

Oct, 2019

指导策略优化的行为评分学习

通过使用 Wasserstein 距离在新定义的潜在行为空间中比较强化学习策略，我们引入了一种新方法，展示了通过使用 Wasserstein 距离的二元制定，可以学习策略行为的得分函数，用于引导 / 远离所需 / 不需要的行为，并将正则化项加入两个新的策略训练算法中。在一系列具有挑战性的环境中展示了比现有方法更好的表现。同时我们提供开源演示。

Jun, 2019

Wasserstein 分布鲁棒优化：机器学习中的理论和应用

此论文介绍了基于 Wasserstein 分布鲁棒优化的数据驱动决策方法，能够解决样本有限、参数不确定的情况下，采用仅仅通过数据学习决策的问题，绕过测试样本不能涵盖所有情况的问题，具有良好的效果且容易计算。此方法对于分类、回归等基本学习任务有很好启示作用。

Aug, 2019

使用最优传输理论分析过参数化模型上梯度下降的全局收敛性

利用粒子混合模型及连续时间梯度下降对机器学习与信号处理中的测量值进行凸函数最小化，特别是在使用单个隐藏层的神经网络进行训练时，可通过 Wasserstein 梯度流达到全局最小值。

May, 2018

变分推断中的变分参数空间上的 Wasserstein 梯度流

Variational inference (变分推断) can be optimized using Wasserstein gradient descent methods to improve efficiency and alignment of variational parameters with the true posterior.

Oct, 2023