线性函数逼近作为计算有效的经典强化学习挑战解决方法

May, 2024

线性函数逼近作为计算有效的经典强化学习挑战解决方法

Linear Function Approximation as a Computationally Efficient Method to Solve Classical Reinforcement Learning Challenges

PDF

Hari Srikanth

TL;DR基于神经网络的价值函数的近似是领先的基于策略的方法（如 Trust Regional Policy Optimization (TRPO) 和 Proximal Policy Optimization (PPO)）的核心。然而，在状态空间和行动空间较低的环境中，计算复杂的神经网络架构与简单的价值函数近似方法相比，提供的改进幅度较小。本文提出了基于自然策略梯度方法的自然演员 - 评论员算法实现，并认为在这些环境中，以线性函数近似为范例的自然策略梯度方法可能超过 TRPO 和 PPO 等基于神经网络的模型的性能和速度。我们观察到，在强化学习基准 Cart Pole 和 Acrobot 上，我们的算法训练速度比复杂的神经网络架构快得多，并获得相等或更好的结果。这使我们能够推荐在传统和稀疏奖励低维问题中使用以线性函数近似为范例的自然策略梯度方法，而不是 TRPO 和 PPO。

Abstract

neural network based approximations of the value function make up the core of leading Policy Based methods such as Trust Regional Policy O

neural network approximations value function natural actor critic linear function approximation

发现论文，激发创造

带有线性函数逼近的可证明有效强化学习

本文提出了第一个在基于线性动态和线性奖励时，具有多项式运行时间和样本复杂度的可证明的强化学习算法，该算法可以在不需要模拟器或其他假设的情况下实现，具有快速速度且与状态和动作数量无关。

Jul, 2019

线性函数逼近的谨慎乐观策略优化与探索

本文提出了一种改进版的 COPOE 算法，克服 Policy optimization 方法在采样复杂度方面的问题，同时保留它对模型不当规格化的鲁棒性。

Mar, 2021

乐观自然策略梯度：一种简单高效的在线强化学习策略优化框架

本文提出了一种称为 Optimistic NPG 的简单高效策略优化框架，该框架的样本复杂度具有最优的维度依赖性，可以高效地学习线性 MDP 和函数逼近下的最优策略。

May, 2023

近端策略优化算法

本研究提出了一种新的针对增强学习的策略梯度方法，称为近端策略优化 (PPO)，通过与环境的交互采样数据，并使用随机梯度上升优化 “替代” 目标函数，不同于标准的策略梯度方法，该方法可以实现多个小批量更新周期，实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法，同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。

Jul, 2017

神经近端 / 信任区域策略优化实现全局最优策略

本文研究使用神经网络来完成深度强化学习中的策略优化，其中包括策略梯度和动作价值函数。在此基础上，通过分析无限维镜像下降的全局收敛性，证明了 PPO 和 TRPO 在使用过度参数化神经网络时收敛于全局最优策略，且收敛速度为次线性。

Jun, 2019

矩阵低秩信任域策略优化

该研究提出了一种基于低秩矩阵的模型作为 Trust Region Policy Optimization（TRPO）算法参数的有效替代方法，将随机策略的参数整合成一个矩阵并应用矩阵补全技术，从而降低计算和样本复杂度，并保持相似的综合奖励。

May, 2024

深度强化学习控制排队网络

本论文研究了如何将新型高级策略梯度方法运用于具有无限状态空间、无界代价和长期平均代价目标的马尔可夫决策问题，提出了一种基于距离价值函数估计的 Proximal Policy Optimization 算法，并使用方差抑制技术解决了采样带来的误差问题，试验结果表明在具有多种负载条件的系统中，该算法可以生成优于现有启发式方法的控制策略，甚至可以获得接近于最优的结果。

Jul, 2020

线性函数逼近下的离策略自然演员 - 评论家的有限样本分析

本文提出了改进的强化学习算法及其复杂度分析，该算法使用离线学习和线性函数逼近，并使用时间差分学习和自然策略梯度优化，其采样复杂度为 O (ϵ^−3)。

May, 2021

带线性函数逼近的正则化 Q 学习

通过在有限时间内收敛到线性函数逼近情况下的投影贝尔曼误差的单环路算法，本文提出的算法在马尔科夫噪声存在的情况下收敛于稳定点，并为该算法衍生的策略提供性能保证。

Jan, 2024

策略梯度方法的矩阵低秩近似

基于低秩矩阵模型的策略优化方法降低了神经网络模型的计算和样本复杂度，同时实现了类似的累积奖励。

May, 2024