本文研究了智能代理在协调、学习中的作用,提出了一种基于信息传递的优化方法,通过实验表明该方法可以增强现有的分散式训练方法,具有推广应用的潜力。
Mar, 2021
使用超图的概念和均值场博弈理论,提出了一种建模大规模多智能体动力系统的方法,可以跨超过两个 Agent 进行交互,该方法被扩展到多层设置中,并被用于社交舆论和传染病控制问题的实证研究。
Mar, 2022
我们提出了一种计算多智能体系统中闭环最优策略的方法,并证明了在拥有无限个智能体的系统中成功收敛到最优行为,而且我们的方法具有完全分散的特性,能够在经济和控制理论中的实际应用中收敛到纳什均衡策略。
Mar, 2018
本文提出了基于信息论的速率畸变理论框架,它使得我们能够分析完全分散的政策能够重构最优解的程度,同时,该框架提供了自然的扩展解决了一个代理应该与哪些节点通信以提高其个体策略的性能的问题。
Jul, 2017
本研究主要探讨了如何应用基于观察专家演示的控制器学习算法,训练出端到端的神经网络,用于解决协作多智能体系统中的分布式控制问题,实验结果表明,使用通信策略可以有效提高分布式模型的性能。
Feb, 2023
该研究基于强化学习,提出了 FCMNet 通信框架,通过方向性递归神经网络的隐藏状态作为通信信息,在具备全局通信但不可靠的情况下,实现了一个既能学习多跳通信协议,又能让代理团队制定决策的共同分散式智策略。FCMNet 具有较强的鲁棒性,在一系列 StarCraft II 微操作任务中超越了现有的基于通信强化学习方法,也在一些任务中优于价值分解方法,同时还能应对随机丢包或二元信息等通信干扰情况,有望应用于各种实际机器人任务。
Jan, 2022
在多跳无线网络中,通过分布式可扩展的采样和传输策略以及图神经网络结构,优化采样和远程估计研究的主要问题包括缓存并从其他代理处获得最新样本、无线冲突通道和各个网络节点之间的决策制定。
Apr, 2024
本文研究了具有无限相互作用 agent(例如群体)的平均场多智能体系统,使用经典的假设和单个学习算法分析了虚构迭代方案的收敛性,证明了无模型学习算法在经典 MFG 动力学假设情况下收敛于非平稳 MFG 平衡,采用深度 RL 算法在连续动作空间环境中计算了该虚构博弈方案的近似最佳响应。
Jul, 2019
本文研究了在图形网络游戏中使用分布式八卦方法寻找纳什均衡的方法,介绍了干扰图和通信图的概念,设计了通信图以使玩家仅交换必要的信息,证明了使用干扰和通信图的八卦方法在收敛步长逐渐缩小的情况下能够几乎一定收敛于纳什均衡。
Mar, 2017
以非线性稠密图马尔可夫游戏为极限,提出了图分块场博弈的新离散时间公式,并通过正则化最优控制解和其生成的平均场重复发现策略梯度加强学习,成功获得在众多玩家的场景中可行的近似纳什均衡。
Nov, 2021