用于有约束多任务强化学习的自然策略梯度和演员评论家方法

May, 2024

用于有约束多任务强化学习的自然策略梯度和演员评论家方法

Natural Policy Gradient and Actor Critic Methods for Constrained Multi-Task Reinforcement Learning

Sihan Zeng, Thinh T. Doan, Justin Romberg

TL;DR多任务强化学习研究了多个任务同时有效解决的单一策略的约束形式，在中心化和去中心化设置下分别考虑了服务器和代理之间的全局约束问题，并提出了基于原始 - 对偶算法和基于采样的演员 - 评论家算法来解决这一问题，并研究了线性函数逼近的泛化扩展。

Abstract

multi-task reinforcement learning (RL) aims to find a single policy that effectively solves multiple tasks at the same time. This paper presents a constrained formulation for multi-task RL where the goal is to ma

multi-task reinforcement learning constrained formulation centralized setting decentralized setting actor-critic algorithm

发现论文，激发创造

部分观察多智能体环境下的演员 - 评论家策略优化

本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色，并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。

Oct, 2018

强化学习的双重视角对政策约束的施加

通过使用一种通用的原始对偶框架，将经典优化和控制理论与基于值和演员 - 评论家强化学习方法结合，本研究旨在统一和整合现有技术，并为学习的策略施加附加约束。构建出的 $ exttt {DualCRL}$ 算法支持各种策略约束的组合，在训练过程中使用可训练的奖励修改实现自动处理，实验证明了该方法的有效性，并为系统设计者提供了多种策略约束的工具箱。

Apr, 2024

联邦自然策略梯度方法用于多任务强化学习

多任务情境下的联邦强化学习，通过策略优化实现分布式决策，并建立了全局收敛性保证。

Nov, 2023

约束的演员 - 评论家算法和约束的自然演员 - 评论家算法的有限时间分析

通过应用 Lagrange 乘数法，我们对带有不等式约束的 C-MDP 中的 actor critic 和 natural actor critic 算法进行了非渐近分析，并证明这些算法在非独立同分布（Markovian）环境中能够找到性能函数的一阶稳定点，其采样复杂度分别为 ε^{-2.5}（C-AC 算法和 C-NAC 算法）。我们还在几个不同的网格环境中进行了实验，并观察到这两个算法在大网格尺寸上的良好实验结果，受限的自然 actor critic 稍微优于受限的 actor critic，而对于小网格尺寸，后者稍微优于前者。

Oct, 2023

受约束强化学习具有零对偶间隙

本文针对自主制约智能方面存在的困境进行研究，主要研究如何应用 Primal-Dual 方法使其具有收敛性。通过探究多目标收益函数，多目标学习和多目标值函数相结合等方法的局限性，提出 Primal-Dual 算法。与其他算法不同，本方法可以在把冲突目标转化为受限制 RL 问题后得到实际的最优解，具有收敛性，并且可以扩展到一些神经网络模型上。

Oct, 2019

多智能体自然演员 - 评论强化学习算法

本研究提出三种完全分散的自然 Actor Critic （MAN）算法，具有全局收敛性和在交通网络中降低平均拥堵率的实际应用。

Sep, 2021

约束强化学习的平均奖励目标：基于模型和无模型算法

在这份研究论文中，通过系统研究了强化学习（Reinforcement Learning）在约束条件下的模型方法和无模型方法，着重分析了平均奖励随机决策过程中乐观和后验取样的基础方法以及参数化模型无关方法，同时在解决约束决策过程中提供遗憾保证和约束违规分析。同时，还探讨了在弱通信随机决策过程中的结果，扩大了研究结果的适用范围。

Jun, 2024

多智能体演员 - 评论家在混合协作竞争环境下的应用

本文研究深度强化学习在多智能体领域的应用，提出一种基于演员 - 评论家方法的适应性策略，可成功学习需要多智能体协作的复杂策略，并通过使用每个智能体的策略集进行训练，得到了更强大、更健壮的策略。在合作和竞争场景中，我们的方法相比现有方法能够发现各种物理和信息协调策略。

Jun, 2017

一种具有均匀 PAC 保证的限制 MDP 的策略梯度原始对偶算法

我们介绍了一种具有均匀概率近似正确性保证的新型策略梯度原始 - 对偶算法，同时保证了收敛至最优策略、次线性遗憾和多项式样本复杂度的理论保证，并在一个简单的 CMDP 示例中进行实证展示，证明了算法收敛至最优策略，而现有算法则表现出振荡性能和约束违规。

Jan, 2024

安全平衡：一种用于约束多目标强化学习的框架

在涉及安全关键系统的众多强化学习问题中，平衡多个目标并同时满足严格的安全约束是一个关键挑战。为解决这个问题，我们提出了一个基于原始的框架，通过多目标学习和约束遵从性之间的策略优化来协调。我们的方法采用了一种新颖的自然策略梯度操作方法，用于优化多个强化学习目标，并克服不同任务之间冲突梯度，因为简单的加权平均梯度方向可能不利于特定任务的性能，原因在于不同任务目标的梯度不对齐。当出现硬约束违规时，我们的算法介入纠正策略以最小化违规。我们在表格设置中建立了理论收敛和约束违规保证。在具有挑战性的安全多目标强化学习任务上，我们提出的方法在实证上也优于先前最先进的方法。

May, 2024