在合作与拜占庭式分散团队中使用互信息进行迭代推理
本文提出了一个最大互信息(MMI)框架,用于多智能体强化学习,通过在行动之间的互信息上采取正则化累积回报,使多个智能体学习协调行为。通过引入潜在变量来诱导非零互信息,并应用变分界,我们推导了所考虑的 MMI - 正则化目标函数的可处理下界。将策略迭代应用于最大化所得到的下界,我们提出了一个名为变分最大互信息多智能体演员 - 评论家(VM3-AC)的实用算法,它遵循中央化学习与分散执行(CTDE)的方法。我们在几个需要协调的游戏中评估了 VM3-AC,并且数值结果表明 VM3-AC 在需要协调的多智能体任务中优于 MADDPG 和其他 MARL 算法。
Jun, 2020
提出了一种 MARL 框架,叫做渐进式互信息协作(PMIC),其通过最大化优秀协作行为相关的互信息和最小化次优协作行为相关的互信息以促进更好的协作,并避免陷入次优协作行为,实验结果表明,PMIC 相较于其他算法具有优异的表现。
Mar, 2022
本文提出了一种新的用于多智能体强化学习的互信息框架,以实现多个智能体协调行为,并通过同时多智能体行为间的互信息来规范累积收益。将多个智能体行为间的互信息引入一个潜在变量,应用变分下界,得到了一个可处理的目标函数下界,该下界可以解释为最大熵强化学习与其他智能体行为的不确定性降低相结合,通过将此下界最大化,提出了一个名为变分最大互信息的多智能体演员 - 批评家算法 (VM3-AC),其遵循集中式学习与分散式执行。在多个需要协调的游戏中对 VM3-AC 进行了评估,数值结果表明 VM3-AC 在需要高质量协调的多智能体任务上胜过其他多智能体强化学习算法。
Mar, 2023
提出一种名为 MIR2 的方法,通过在常规情景训练策略并最小化互信息作为鲁棒正则化来提高多智能体强化学习的鲁棒性,实验证明 MIR2 在各种情况下都能比现有的 max-min 优化方法展现出更大的对抗性。
Oct, 2023
本文探讨了在协作场景中人们如何相互交互尤其是在个体了解队友很少的情况下,通过多智能体逆强化学习(MIRL)来推断每个个体行为背后的奖励函数。针对这个问题,我们提出一个新颖的 MIRL-ToM 模型,结合了理论思维(Theory of Mind)和最大熵 IRL,成功地恢复了用于有知晓或无知晓队友互动的奖励。
Feb, 2023
围绕合作多智能体强化学习,实现了依照价值分解及参数共用两大设计原则,其中心的 Q 函数通过局部化的 Q 网络在代理间共享参数。然而,我们证明在某些环境中,比如高度多模式的奖励环境下,价值分解以及参数共享会引起问题并导致不良结果。相反,个体策略的策略梯度方法在这些情况下可以收敛到最优解,并部分支持最近在许多 MARL 测试床上表现良好的 PG 方法。得出实验结果后,我们提出实用建议,并在简化的矩阵和网格世界游戏以及 StarCraft 多代理挑战和谷歌研究足球等各种领域进行了实证验证。希望我们的研究能够为开发更普遍和更强大的 MARL 算法的社区带来益处。
Jun, 2022
本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法,用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题,并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.
Nov, 2017
多智能体协调中,达成共识是关键。本文提出一种基于模型的共识机制,通过想象出一个共同目标来引导多智能体达成共识,进而引导他们合作地达到有价值的未来状态。
Mar, 2024
本文提出了一种广义的递归推理(GR2)框架,旨在建模具有不同分层次理性的代理,其架构能够使代理表现出不同层次的 “思考” 能力,使得上层代理可以更好地应对各种不那么复杂的学习者。我们在理论和实验方面都有贡献,首先在理论方面,通过概率图模型设计了 GR2 的分层架构,并证明了完美贝叶斯均衡存在。其次,在实证方面,我们在多种 MARL 基准测试中验证了我们的发现,证明了我们提出的方法在效果上具有巨大的优势。
Jan, 2019