深度度量张量正则化的策略梯度

May, 2023

Deep Metric Tensor Regularized Policy Gradient

Gang Chen, Victoria Huang

TL;DR本文提出了一种新的策略梯度算法，使用矩阵张量分解以及 Riemann 流形，通过最小化 Riemann 流形中的绝对发散来规范化算法，实现了深度强化学习算法性能的显著提升。

Abstract

policy gradient algorithms are an important family of deep reinforcement learning techniques. Many past research endeavors focused on using the first-order policy gradient information to train policy networks. Di

policy gradient hessian trace riemannian manifold metric tensor deep reinforcement learning

发现论文，激发创造

基于轨迹的离线深度强化学习

本文提出一种改进的基于 policy gradient 的强化学习算法，通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术，提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明，相较于标准的 policy gradient 方法，该算法能够成功可靠地使用更少的系统交互来学习解决方案。

May, 2019

深度生成模型的黎曼几何

研究了深度生成模型所学习的流形的黎曼几何，并提出了计算测地线和沿流形路径平行传递切向量的算法，发现这些模型学习的流形近似于零曲率，并探讨了这种现象的实际影响。

Nov, 2017

提高熵以提升个性化任务的政策梯度性能

基于策略梯度的强化学习代理为了多样性，探究了正则化对行动多样性的影响，并通过实验结果证明了多样性促进的策略正则化在个性化任务的性能提升方面具有显著优势，同时不损失准确性。

Oct, 2023

一种针对策略梯度的测度导数的实证分析

本文探讨了基于测度值导数的随机梯度估计器及其在 actor-critic 策略梯度设置中的应用，结果显示它在低维和高维动作空间中能够达到与基于似然比或重参数化技巧的方法相当的性能。

Jul, 2021

使用深度神经网络学习不变的黎曼几何表征

本文提出了一种面向流形训练深度神经网络的通用框架，利用切空间和指数映射，将最终输出元素在 Riemann 流形上的深度神经网络的训练问题转化为当前深度学习研究的问题，在多类图像分类和人脸图像回归上显示出改进后的性能。

Aug, 2017

使用广义优势估计进行高维连续控制

本文探讨了如何使用深度神经网络和政策梯度方法，通过数值函数和置信区间优化解决了强化学习中大量样本和非稳定性问题，取得了在高难度 3D 运动任务中显著的实证结果。

Jun, 2015

深度神经网络的奇异黎曼几何方法 I. 理论基础

本论文研究基于 Riemannian 几何的新方法，探索深度神经网络在流形之间的映射及其导致的结构，指出其 pullbacks 在其他流形上生成了诱导偏度量空间的退化 Riemann 度量，给出了这种映射的理论性质，并在实用神经网络中应用其几何框架

Dec, 2021

强化学习中的三次正则化策略牛顿算法

论文探讨了基于强化学习的控制问题，提出了两种策略牛顿算法，并证明了算法的渐进收敛性和样本复杂度。

Apr, 2023

优化高斯混合策略的 Wasserstein 梯度流

该研究提出了一种新的机器人策略优化方法，将策略更新视为一个最优输运问题，并利用高斯混合模型和 Riemannian 优化方法来优化机器人的运动策略，该方法在多个机器人任务中表现出更高的成功率和较低的方差。

May, 2023

均场极限下带有熵正则化的 MDPs 策略梯度与神经网络逼近的收敛性

本文研究了策略梯度在无限时间，连续状态和动作空间，及熵正则化的马尔可夫决策过程中的全局收敛性，并证明了在符合足够正则化的情况下，梯度流指数级收敛到唯一的稳态解。

Jan, 2022