策略梯度方法的矩阵低秩近似

May, 2024

Matrix Low-Rank Approximation For Policy Gradient Methods

Sergio Rozada, Antonio G. Marques

TL;DR基于低秩矩阵模型的策略优化方法降低了神经网络模型的计算和样本复杂度，同时实现了类似的累积奖励。

Abstract

Estimating a policy that maps states to actions is a central problem in reinforcement learning. Traditionally, policies are inferred from the so called value functions (VFs), but exact VF computation suffers from the curse of dimensionality. Policy gradient (PG) methods bypass this by

发现论文，激发创造

PC-PG: 基于策略覆盖指导探索的可证明策略梯度学习

介绍了Policy Cover-Policy Gradient(PC-PG)算法, 其通过学习的策略集(策略保证)来平衡探索和开发的权衡,同时具有强大的模型误差优化保证

Jul, 2020

强化学习中的张量和矩阵低秩值函数逼近

论文提出了一种基于随机低秩算法和张量拟合方法的、无模型且在线的环境中的VF矩阵估计算法，有效地解决了高维状态空间下基于线性或神经网络的VF估计方法的维度灾难问题，得到了满意的性能评估效果。

Jan, 2022

具低秩结构的离线强化学习矩阵估计

本文提出了一种离线策略评估算法，该算法利用了隐含的低秩结构来估计未被覆盖的状态-动作对的值，同时提供了一个离线策略优化算法，且具有非渐近性能保证。

May, 2023

低秩强化学习光谱逐项矩阵估计

研究低秩结构引发的强化学习中的矩阵估计问题，通过简单的基于谱的方法高效地恢复矩阵的奇异子空间并实现最小的逐项误差，从而设计了充分利用低秩结构的强化学习算法，包括低秩赌博机问题的最小遗憾算法和低秩马尔可夫决策过程中的无奖励RL的最佳策略识别算法，两种算法均具有最先进的性能保证。

Oct, 2023

基于局部李雅普诺夫条件的得分感知策略梯度方法与性能保证：应用于产品形式随机网络和排队系统

通过利用底层MDP的结构，引入了一种新的梯度估计器家族——SAGEs，它们可以在无需依赖于值函数估计的情况下估计策略梯度，相较于经典的actor-critic等策略梯度方法具有更快的收敛速度，并通过数值比较证明了其优越性。

Dec, 2023

识别政策梯度子空间

通过评估两种常用的深度策略梯度方法在各种模拟基准任务上的表现，我们的研究结果表明，尽管强化学习所固有的数据分布不断变化，梯度子空间仍然存在，这为未来更高效的强化学习提供了有益的方向，例如通过改善参数空间探索或实现二阶优化。

Jan, 2024

深度强化学习中的政策梯度综合指南：理论、算法与实现

基于政策梯度定理的深度强化学习中，各种强大的政策梯度算法已被提出。本论文提供了对政策梯度算法的整体概述，旨在促进对其理论基础和实际实现的理解，包括连续版本的政策梯度定理的详细证明、收敛性结果以及对实际算法的全面讨论。通过在连续控制环境中比较最重要的算法并提供正则化的好处方面的见解，进一步加强了对主题的认识。

Jan, 2024

用随机策略梯度学习最优确定性策略

通过比较基于动作和基于参数的探索，本论文介绍了一种理论框架以及对全局收敛性的研究，用于理解强化学习中连续问题的策略梯度方法，可以通过学习确定性策略来优化采样复杂度和性能之间的权衡。

May, 2024

矩阵低秩信任域策略优化

该研究提出了一种基于低秩矩阵的模型作为Trust Region Policy Optimization（TRPO）算法参数的有效替代方法，将随机策略的参数整合成一个矩阵并应用矩阵补全技术，从而降低计算和样本复杂度，并保持相似的综合奖励。

May, 2024

有限时间价值函数的张量低秩逼近

本研究论文提出了一种非参数低秩随机算法，以近似有限时域MDP的价值函数。研究采用多维数组或张量表示未知的价值函数，利用从MDP采样得到的奖励来估计最优价值函数，并使用截断的PARAFAC分解设计了在线低秩算法，以恢复价值函数张量的条目。通过数值实验证明了该方法的高效性，并且低秩PARAFAC模型的大小以各个维度的加法方式增长。

May, 2024