使用信任域方法的平均奖励强化学习

IJCAIJun, 2021

使用信任域方法的平均奖励强化学习

Average-Reward Reinforcement Learning with Trust Region Methods

Xiaoteng Ma, Xiaohang Tang, Li Xia, Jun Yang, Qianchuan Zhao

TL;DR本文探讨了长期平均目标下的强化学习问题，提出了一种统一的信任区域理论和一种名为 APO 的实用算法，该算法可以改进价值估计，并且在大部分任务中表现优于折扣 PPO，提出的框架可能会补充折扣目标的强化学习框架。

Abstract

Most of reinforcement learning algorithms optimize the discounted criterion which is beneficial to accelerate the convergence and reduce the variance of estimates. Although the discounted criterion is appropriate for certain tasks such as financial related problems, many engineering pr

reinforcement learning average criterion trust region theory average policy optimization value estimation

发现论文，激发创造

基于策略的深度强化学习在平均回报准则下的应用

本研究针对均值回报的强化学习问题，提出了一种考虑策略改善和深度强化学习相结合的新算法 ATRPO，实验结果表明该算法在 MuJuCo 环境中不仅能够有效应对较为复杂的任务，而且在长期平均回报上的表现也优于传统算法 TRPO。

Jun, 2021

平均受限策略优化

本论文提出针对平均准则的受约束 MDPs 的一种新的（可能是第一种）策略优化算法 —— 平均约束策略优化（ACPO）算法，通过对平均 MDP 的基本灵敏度理论进行开发并在算法的设计中使用相应的界限，提供其性能的理论保证，并通过在各种具有挑战性的 MuJoCo 环境中的广泛实验工作，展示了该算法与其他专门为平均 CMDP 设置的最先进算法相比的卓越性能。

Feb, 2023

绝对政策优化

最近几年，基于信任区域的在线强化学习在解决复杂控制任务和游戏场景方面取得了显著成果。然而，该类别内现有的最先进算法主要强调期望性能的提升，缺乏对最坏情况下性能结果的控制能力。为了解决这一局限性，我们引入了一种新的目标函数；通过优化该函数，将保证在近乎完全性能样本（绝对性能）的下界上实现单调提升。鉴于这一破创性的理论进展，我们通过一系列近似对该理论基础算法进行了改进，得到了一种实用的解决方案，称为绝对策略优化（APO）。我们的实验证明了我们的方法在具有挑战性的连续控制基准任务上的有效性，并将其适用性扩展到掌握 Atari 游戏。我们的研究结果表明，APO 明显优于最先进的策略梯度算法，在期望性能和最坏情况下性能方面都取得了实质性的改进。

Oct, 2023

基于确定性策略搜索的离线平均回报演员 - 评论家算法

本文研究了强化学习中平均回报和折扣回报的区别，提出了面向平均回报的策略梯度定理，同时开发了基于此理论的 Average Reward Off-Policy Deep Deterministic Policy Gradient (ARO-DDPG) 算法。实验结果表明，ARO-DDPG 在 MuJoCo 环境中优于现有的基于平均回报的策略方法。

May, 2023

约束强化学习的平均奖励目标：基于模型和无模型算法

在这份研究论文中，通过系统研究了强化学习（Reinforcement Learning）在约束条件下的模型方法和无模型方法，着重分析了平均奖励随机决策过程中乐观和后验取样的基础方法以及参数化模型无关方法，同时在解决约束决策过程中提供遗憾保证和约束违规分析。同时，还探讨了在弱通信随机决策过程中的结果，扩大了研究结果的适用范围。

Jun, 2024

不确定性感知策略优化：一种稳健、自适应的信任区域方法

在强化学习中，针对数据量有限的情况，提出了一种基于不确定性管理技术的深度策略优化方法，可以生成稳健的策略更新，适应学习过程中的不确定性水平。

Dec, 2020

使用平均和折扣奖励的多目标（深度）强化学习中学习公平策略

研究了如何在自主系统操作中考虑公平性，并提出一种基于深度强化学习的公平策略学习框架，应用于多个领域中，包括折扣回报和平均回报算法。

Aug, 2020

可证明高效的无限时间平均回报线性 MDP 的强化学习

设计了一个计算有效的算法，通过将平均奖励设定近似为折扣设定，并且在适当调整贴现因子时，通过运行基于乐观值迭代的算法来实现无限时段平均奖励线性马尔可夫决策过程 (MDP) 的 O (sqrt (T)) 的遗憾。

May, 2024

深度强化学习控制排队网络

本论文研究了如何将新型高级策略梯度方法运用于具有无限状态空间、无界代价和长期平均代价目标的马尔可夫决策问题，提出了一种基于距离价值函数估计的 Proximal Policy Optimization 算法，并使用方差抑制技术解决了采样带来的误差问题，试验结果表明在具有多种负载条件的系统中，该算法可以生成优于现有启发式方法的控制策略，甚至可以获得接近于最优的结果。

Jul, 2020

连续强化学习的策略优化

研究了强化学习在连续时间和空间的设置下的应用，提出了购买力占据时间的概念，并进一步将其应用于策略梯度和 TRPO/PPO 方法中。通过数值实验，验证了此方法的有效性和优势。

May, 2023