多时间尺度多智能体强化学习的非平稳策略学习

Jul, 2023

多时间尺度多智能体强化学习的非平稳策略学习

Non-Stationary Policy Learning for Multi-Timescale Multi-Agent Reinforcement Learning

Patrick Emami, Xiangyu Zhang, David Biagioni, Ahmed S. Zamzam

TL;DR多时间尺度多智能体强化学习中的非平稳政策问题可以通过周期性多智能体政策的学习和相序神经网络来解决。

Abstract

In multi-timescale multi-agent reinforcement learning (MARL), agents interact across different timescales. In general, policies for time-dependent behaviors, such as those induced by multiple timescales, are non-

multi-timescale multi-agent reinforcement learning non-stationary policies periodic time encoding phase-functioned neural networks

发现论文，激发创造

异步分散式 Q-Learning: 持久性的两时间尺度分析

这篇研究论文探讨了多智能体强化学习中的非静态挑战，介绍了一种异步变种的分散式 Q 学习算法，并提供了使异步算法以高概率驱动到均衡的充分条件。它还将该算法及其相关方法的适用性扩展到参数独立选择的环境，并在不强加协调假设的情况下驯服了非静态挑战。

Aug, 2023

多智能体强化学习中的学习学习策略梯度算法

本研究提出了一种新的元多智能体策略梯度定理，该定理直接考虑到多智能体学习环境中固有的非稳态策略动态，并通过建模梯度更新以考虑智能体自身的非稳态策略动态以及环境中其他代理的非稳态策略动态来达成。在多种多智能体基准测试中，我们的方法能够在全谱的混合激励、竞争和合作领域中比基线方法更有效地适应学习新的代理。

Oct, 2020

网络系统控制的多智能体强化学习

本文研究了网络系统控制中的多智能体强化学习问题，提出了基于空间折扣因子的 NMARL 问题并引入了一种可微的通信协议 NeurComm 以提高学习效率和控制性能。实验结果表明，合适的空间折扣因子可以有效提高 MARL 算法的非通讯性学习曲线，而 NeurComm 在学习效率和控制性能方面均优于现有的通信协议。

Apr, 2020

多智能体深度强化学习中的非稳态问题处理

本文综述了多智能体深度强化学习中的非稳态问题，包括集中式训练、对手策略表示学习、元学习、通信和去中心化学习等方法，并列举了未来研究的可能方向。

Jun, 2019

基于平均回报的网络系统可扩展多智能体强化学习

本文提出了一种可伸缩的演员 - 评论家（SAC）方法，可以解决具有本地依赖结构的网络多智能体强化学习（MARL）问题，其复杂度与本地邻域的状态 - 动作空间大小相比，而不是整个网络的规模，其效果取决于智能体在图中的距离，通过利用指数衰减性质，可以获得性能接近最优的局部策略。

Jun, 2020

多智能体强化学习中的策略蒸馏与价值匹配

本文提出了一种多智能体 Actor-Critic 算法，通过分解多智能体问题以及知识蒸馏和价值匹配等方法，使智能体之间能够共享信息并解决维度灾难问题，进而在离散和连续动作空间中实现更好的性能。

Mar, 2019

具有通用效用的可扩展多智能体强化学习

我们研究了具有通用效用的可扩展多代理强化学习，通过利用网络结构的空间相关性衰减特性提出了一种具有阴影奖励和本地策略的可扩展分布式策略梯度算法，该算法不需要全观察每个代理的情况，可以最大化团队的平均局部效用函数。

Feb, 2023

具有动态参与智能体的可转移的多智能体强化学习

本研究提出一种具有 Few-shot Learning 算法的网络架构，允许在集中式训练期间代理的数量变化，这可以使新代理的模型适应速度比基线模型快 100 多倍。

Aug, 2022

多智能体强化学习的统一博弈论方法

本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法，用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题，并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.

Nov, 2017

深度强化学习在生命周期非稳态环境下的应用

在非稳态环境下，我们提出了一种新的离线强化学习算法，该算法使用潜在变量模型，将当前和过去的经验学习环境的表示，并在此表示下执行离线强化学习，实验结果表明这种方法显著优于不考虑环境变化的方法。

Jun, 2020