多智能体展开算法与强化学习

Sep, 2019

Multiagent Rollout Algorithms and Reinforcement Learning

Dimitri Bertsekas

TL;DR本文介绍了一种基于本地回滚算法的多智能体决策方法，该方法通过配合其他智能体的协调信息，在每个阶段使每个智能体的决策都能够独立计算，并且与智能体数量无关。此外，我们探讨了并行化智能体计算和近似策略迭代算法等方法来进一步提高本方法的计算效率，并证明了本文算法可以收敛到智能体的最优策略。

Abstract

We consider finite and infinite horizon dynamic programming problems, where the control at each stage consists of several distinct decisions, each one made by one of several agents. We introduce an approach, whereby at every stage, each agent's decision is made by executing a

dynamic programming problems multi-agent decision-making local rollout algorithm computation efficiency approximate policy iteration algorithms

发现论文，激发创造

大规模地图上的按需城市移动问题的近似多智能体强化学习 (扩展版)

我们提出了一个近似的一次一个滚动法算法，通过将图分割成基于预测需求和用户定义的最大代理数量的区域，以减少计算成本，并在每个区域中并行执行一次一个滚动法算法，从而实现稳定的近似最优策略。

Nov, 2023

未被映射环境中多车路径规划的分布式在线发布

本文提出了一种完全分布式、在线和可扩展的增强学习算法，用于解决多车辆路径规划问题，代理定期聚集在本地簇中，独立地在每个簇中应用多智能体扩展方案，动态地在代理之间协调任务并共享其局部信息。通过较大规模的模拟，证明了分布式滚动算法比贪婪基础策略具有近两倍的成本优势。

May, 2023

合作多智能体马尔可夫决策过程中的近似线性规划和分散策略改进

我们提出了适用于合作多智能体有限和无限时域折扣马尔可夫决策过程的逼近策略迭代算法，其中使用近似线性规划计算近似值函数并实施分散策略改进。

Nov, 2023

网络多智能体强化学习中局部策略迭代的全局收敛性

本研究提出了一种名为局部策略迭代的算法，可以通过提高智能体之间的合作，最大化长期奖励的平均值，解决了多智能体强化学习问题中所面临的维度诅咒和通信限制的问题。

Nov, 2022

基于策略梯度的可扩展集中化深度多智体强化学习

探索使用强化学习解决多智能体问题，将多智能体强化学习问题视为分布式优化问题处理，假设多智能体群体中每个智能体的策略在参数空间中相近且可以用单一策略代替，结果表明该算法在协作和竞争任务上比现有方法更加有效。

May, 2018

多智能体强化学习中影响长期行为

本文提出了一个基于 farsighted objective 的新优化目标以及一种新的多智能体强化学习方法，实现了优于现有基线结果的长期性能。

Mar, 2022

大规模环境下全局决策中高效强化学习的应用

研究探讨了在存在许多本地代理的全局决策制定中的强化学习问题，旨在通过学习一种最大化全局和本地代理奖励的策略来解决可扩展性挑战。提出了 SUB-SAMPLE-Q 算法，该算法通过对局部代理进行子采样来计算最优策略，其时间复杂度仅在 k 方面呈指数增长，相较于标准方法能够提供指数级的加速。研究结果表明，学习到的策略在子采样代理数量 k 增加时会趋近于最优策略，并且收敛的顺序为 O (1/√k + εk,m)，其中 εk,m 为贝尔曼噪声。同时进行了需求响应和排队模拟实验。

Mar, 2024

零和马尔可夫博弈中政策优化的更快收敛

本文提出了一种基于 OMWU 方法的单环路政策优化算法，并在二人零和马尔可夫博弈中，通过控制正则化的程度，实现了有限时间的最后一次线性收敛到达量子响应均衡点，并在全信息离散设置中实现了收敛结果。

Oct, 2022

众多战略代理系统中的分散式学习

我们提出了一种计算多智能体系统中闭环最优策略的方法，并证明了在拥有无限个智能体的系统中成功收敛到最优行为，而且我们的方法具有完全分散的特性，能够在经济和控制理论中的实际应用中收敛到纳什均衡策略。

Mar, 2018

基于轨迹的离线深度强化学习

本文提出一种改进的基于 policy gradient 的强化学习算法，通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术，提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明，相较于标准的 policy gradient 方法，该算法能够成功可靠地使用更少的系统交互来学习解决方案。

May, 2019