破解多智体的诅咒:可证明的均值场增强学习中的均值嵌入 Q 迭代算法
本研究提出了一种使用图形注意力机制的新型多智能体强化学习算法(Partially Observable Mean Field Multi-Agent Reinforcement Learning based on Graph-Attention),以更有效地捕获邻居智能体的特征信息,以选择更有效的行动,该算法在 MAgents 框架上的三个挑战任务中优于最先进的部分可观测平均场强化学习算法的基线。
Apr, 2023
本文介绍了平均场强化学习方法,通过该方法可以近似处理不同智能体之间的互动,同时开发了多个实际的基于 Q-learning 和 Actor-Critic 的平均场算法模型,并分析了解决纳什均衡的收敛性,在高斯挤压、伊辛模型和博弈游戏等实验中验证了本方法的有效性。同时,作者报告了使用无模型的强化学习方法成功解决了伊辛模型问题。
Feb, 2018
该研究借助平均场控制方法,针对多智能体强化学习面临的高维诅咒问题,提出了一种基于无模型核心的 Q 学习算法。实验结果表明,本算法在大规模多智能体网络拥塞问题中,具有较好的解决性能。
Feb, 2020
提出了基于 LTDE-Neural-AC 和演员 - 评论家方法的多智能体强化学习算法,应用于自驾车、拼车、数据和交通路由模型的图网络,其解决了分散式多智能体强化学习网络结构的问题,并具有收敛保证的优势。
Aug, 2021
本论文介绍了平均场控制理论(Mean field control)在解决包含 $N_{pop}$ 个异构 agents 的协作多智能体强化学习问题中的应用,提出了三个不同的情况,分别考虑了错误率有不同的误差上限。最后,提出一个基于 自然策略梯度 (Natural Policy Gradient) 的算法以收敛到 MARL 的最优策略。
Sep, 2021
本文提出了一种基于图通信的多智能体强化学习探索技术,通过邻近智能体的协作来估计状态 - 动作空间的不确定性,从而在不需要计数机制且可以应用于连续状态环境的前提下执行更有效的探索行为,可以实现最小的信息交换和完全分散的通信方式,并用理论和实验结果分别验证了其在离散状态和连续状态下的性能。
Apr, 2023
提出了第一种能够在分布式系统下使用函数逼近算法解决多代理强化学习的方法,此算法总能输出马尔可夫序列最优解,并且实现了根据多样性相关均衡(CCE)找到Ɛ- 最优解的最优速率,同时,还提出了一种能够在多样性相关均衡(CCE)中找到策略类受限一致均衡的分布式算法。
Feb, 2023
在多智能体强化学习中,本研究首次尝试模拟带有状态不确定性的马尔科夫博弈问题,提出鲁棒性的解决方案,并设计了两种算法,RMAQ 和 RMAAC,用于处理高维状态 - 动作空间,在存在状态不确定性下,实验证明这两种算法在多智能体环境中表现出色。
Jul, 2023
基于量子供应链,并结合多智能体强化学习和量子优势,提出了一种能够实现多智能体合作、有效利用参数和快速收敛的量子 MARL 算法,并引入了投影值测量技术来进一步提高可伸缩性。
Aug, 2023