大规模环境下全局决策中高效强化学习的应用

Mar, 2024

大规模环境下全局决策中高效强化学习的应用

Efficient Reinforcement Learning for Global Decision Making in the Presence of Local Agents at Scale

Emile Anand, Guannan Qu

TL;DR研究探讨了在存在许多本地代理的全局决策制定中的强化学习问题，旨在通过学习一种最大化全局和本地代理奖励的策略来解决可扩展性挑战。提出了 SUB-SAMPLE-Q 算法，该算法通过对局部代理进行子采样来计算最优策略，其时间复杂度仅在 k 方面呈指数增长，相较于标准方法能够提供指数级的加速。研究结果表明，学习到的策略在子采样代理数量 k 增加时会趋近于最优策略，并且收敛的顺序为 O (1/√k + εk,m)，其中 εk,m 为贝尔曼噪声。同时进行了需求响应和排队模拟实验。

Abstract

We study reinforcement learning for global decision-making in the presence of many local agents, where the global decision-maker makes dec

reinforcement learning global decision-making local agents scalability sub-sample-q algorithm

发现论文，激发创造

众多战略代理系统中的分散式学习

我们提出了一种计算多智能体系统中闭环最优策略的方法，并证明了在拥有无限个智能体的系统中成功收敛到最优行为，而且我们的方法具有完全分散的特性，能够在经济和控制理论中的实际应用中收敛到纳什均衡策略。

Mar, 2018

基于策略梯度的可扩展集中化深度多智体强化学习

探索使用强化学习解决多智能体问题，将多智能体强化学习问题视为分布式优化问题处理，假设多智能体群体中每个智能体的策略在参数空间中相近且可以用单一策略代替，结果表明该算法在协作和竞争任务上比现有方法更加有效。

May, 2018

联邦强化学习：马尔可夫采样下的线性加速

本文提出了一种基于联邦学习的强化学习框架，使多方代理协作学习全局模型，同时保护个体数据隐私。对于联邦 TD 和 Q-learning 算法，我们证明了与代理数量成线性的收敛速度，这是首次考虑到马尔可夫噪声和多个本地更新的收敛分析。

Jun, 2022

组合动作空间中的高效规划及其在合作多智能体强化学习中的应用

本篇研究论文是关于如何在具有组合行动空间的多智能体强化学习中，通过访问 argmax oracle 并建立在线模拟和线性函数逼近的最小要求，提出了一种高效的算法，以在所有相关问题参数的多项式计算和查询复杂度内实现计划。

Feb, 2023

多智能体展开算法与强化学习

本文介绍了一种基于本地回滚算法的多智能体决策方法，该方法通过配合其他智能体的协调信息，在每个阶段使每个智能体的决策都能够独立计算，并且与智能体数量无关。此外，我们探讨了并行化智能体计算和近似策略迭代算法等方法来进一步提高本方法的计算效率，并证明了本文算法可以收敛到智能体的最优策略。

Sep, 2019

几乎极小化最优无奖学习

研究奖励免费强化学习框架，提出新的有效算法 SS+TP，通过探索和计划两个阶段，分别进行轨迹收集和任意奖励函数优化，达到对多个奖励函数的策略优化。

Oct, 2020

具有通用效用的可扩展多智能体强化学习

我们研究了具有通用效用的可扩展多代理强化学习，通过利用网络结构的空间相关性衰减特性提出了一种具有阴影奖励和本地策略的可扩展分布式策略梯度算法，该算法不需要全观察每个代理的情况，可以最大化团队的平均局部效用函数。

Feb, 2023

大规模人口系统和可扩展多智能体强化学习调查

这篇综述论文研究了在大规模群体系统中进行可控分析和多智能体强化学习的关键问题和挑战，介绍了现有的相关研究领域和方法，并讨论了未来的应用前景和方向。

Sep, 2022

使用 REINFORCE 的高效样本强化学习

研究了 RL 中的 policy gradient methods，建立了 REINFORCE 算法的全局收敛理论，围绕梯度估计和采样效率等方面进行了研究。

Oct, 2020

多智能体强化学习中局部优化实现全局最优

该研究提出了一种基于多智能体强化学习的 PPO 算法，其中每个代理的本地策略类似于 vanilla PPO，并且通过引入悲观主义来评估策略。该算法是合作 Markov 游戏中首个可证明收敛的多智能体 PPO 算法。

May, 2023