网络多智能体强化学习中局部策略迭代的全局收敛性
本研究提出了一种名为 value propagation 的基于 softmax 时间一致性和分布式优化的 MARL 算法,实现了非线性函数逼近、非 asymptotic 收敛率、离线策略转移和控制的收敛保证。
Jan, 2019
本文提出了一种基于 OMWU 方法的单环路政策优化算法,并在二人零和马尔可夫博弈中,通过控制正则化的程度,实现了有限时间的最后一次线性收敛到达量子响应均衡点,并在全信息离散设置中实现了收敛结果。
Oct, 2022
该研究提出了一种基于多智能体强化学习的 PPO 算法,其中每个代理的本地策略类似于 vanilla PPO,并且通过引入悲观主义来评估策略。该算法是合作 Markov 游戏中首个可证明收敛的多智能体 PPO 算法。
May, 2023
本文研究了网络多智能体强化学习(MARL)问题,提出了一种分层分散式 MarL 框架:LToS,它使代理者能够动态地与邻居共享奖励,从而通过集体鼓励代理者在全局目标上进行合作。实证结果表明 LToS 在社会困境和网络 MARL 的情景下都优于现有方法。
Dec, 2021
本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法,用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题,并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.
Nov, 2017
我们研究了具有通用效用的可扩展多代理强化学习,通过利用网络结构的空间相关性衰减特性提出了一种具有阴影奖励和本地策略的可扩展分布式策略梯度算法,该算法不需要全观察每个代理的情况,可以最大化团队的平均局部效用函数。
Feb, 2023
该论文提出了一种双重平均方案,其中每个代理迭代地执行平均化,以融合相邻梯度信息和本地奖励信息,解决多智能体强化学习中的政策评估问题,并且实现了分散的凸凹螺旋点问题的快速收敛。
Jun, 2018
本文提出了两种具有函数逼近的分布式学习算法来解决网络智能体的多智能体强化学习问题,这两个算法均为完全去中心化的 Actor-Critic 算法,能够应用于大规模多智能体学习问题中,并在模拟实验中验证了算法的有效性和可收敛性。
Feb, 2018
本文提出了一种可行的分布式学习框架来处理多智能体协作强化学习中的信任问题,这种方法使用图的结构描述不同类型的多智能体之间的关系,并提出了两种基于本地价值函数的分布式 Reinforcement Learning (RL) 方法,能够在保证有效性的前提下,大幅减少采样复杂性。
Feb, 2022
本文针对多智能体强化学习算法在代理数目增多时出现的采样复杂度指数级增长的现象,提出了一些去中心化的学习算法,并在几个关键的方面上做了优化,同时通过数值仿真验证我们理论的有效性。
Oct, 2021