策略梯度方法的矩阵低秩近似
介绍了Policy Cover-Policy Gradient(PC-PG)算法, 其通过学习的策略集(策略保证)来平衡探索和开发的权衡,同时具有强大的模型误差优化保证
Jul, 2020
论文提出了一种基于随机低秩算法和张量拟合方法的、无模型且在线的环境中的VF矩阵估计算法,有效地解决了高维状态空间下基于线性或神经网络的VF估计方法的维度灾难问题,得到了满意的性能评估效果。
Jan, 2022
研究低秩结构引发的强化学习中的矩阵估计问题,通过简单的基于谱的方法高效地恢复矩阵的奇异子空间并实现最小的逐项误差,从而设计了充分利用低秩结构的强化学习算法,包括低秩赌博机问题的最小遗憾算法和低秩马尔可夫决策过程中的无奖励RL的最佳策略识别算法,两种算法均具有最先进的性能保证。
Oct, 2023
通过利用底层MDP的结构,引入了一种新的梯度估计器家族——SAGEs,它们可以在无需依赖于值函数估计的情况下估计策略梯度,相较于经典的actor-critic等策略梯度方法具有更快的收敛速度,并通过数值比较证明了其优越性。
Dec, 2023
通过评估两种常用的深度策略梯度方法在各种模拟基准任务上的表现,我们的研究结果表明,尽管强化学习所固有的数据分布不断变化,梯度子空间仍然存在,这为未来更高效的强化学习提供了有益的方向,例如通过改善参数空间探索或实现二阶优化。
Jan, 2024
基于政策梯度定理的深度强化学习中,各种强大的政策梯度算法已被提出。本论文提供了对政策梯度算法的整体概述,旨在促进对其理论基础和实际实现的理解,包括连续版本的政策梯度定理的详细证明、收敛性结果以及对实际算法的全面讨论。通过在连续控制环境中比较最重要的算法并提供正则化的好处方面的见解,进一步加强了对主题的认识。
Jan, 2024
通过比较基于动作和基于参数的探索,本论文介绍了一种理论框架以及对全局收敛性的研究,用于理解强化学习中连续问题的策略梯度方法,可以通过学习确定性策略来优化采样复杂度和性能之间的权衡。
May, 2024
该研究提出了一种基于低秩矩阵的模型作为Trust Region Policy Optimization(TRPO)算法参数的有效替代方法,将随机策略的参数整合成一个矩阵并应用矩阵补全技术,从而降低计算和样本复杂度,并保持相似的综合奖励。
May, 2024
本研究论文提出了一种非参数低秩随机算法,以近似有限时域MDP的价值函数。研究采用多维数组或张量表示未知的价值函数,利用从MDP采样得到的奖励来估计最优价值函数,并使用截断的PARAFAC分解设计了在线低秩算法,以恢复价值函数张量的条目。通过数值实验证明了该方法的高效性,并且低秩PARAFAC模型的大小以各个维度的加法方式增长。
May, 2024