CAMMARL: 多智能体强化学习中的符合性行为建模
本文回顾了现有的关于基于模型的多智能体强化学习的研究,包括理论分析、算法和应用,并分析了基于模型的多智能体强化学习的优势和潜力。此外,我们提供了算法的详细分类,并根据多智能体情景中固有的挑战指出每个算法的优点和缺点。最后,我们总结了这一领域未来发展的有前途的方向。
Mar, 2022
该研究是第一个对多模态环境不确定性的多智能体强化学习问题进行广义建模的工作,并提出了基于课程学习技术的多模态不确定性的鲁棒训练方法,通过在合作和竞争的多智能体强化学习环境下的广泛实验结果表明我们的方法达到了最先进的鲁棒性水平。
Oct, 2023
本文提出了一个框架,通过整合数据增强和良好设计的一致性损失,利用先前的知识来改善现有的多智能体强化学习方法,该框架适用于大多数现有的多智能体强化学习算法,并在多项具有挑战性的任务上进行了实验验证其有效性,同时在物理多机器人测试平台上证明了该框架的优越性。
Jul, 2023
本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法,用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题,并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.
Nov, 2017
该论文介绍了一种基于多智能体强化学习技术的意图管理方法,通过优化重要 KPI 并协调各个闭环实现多个意图同时满足,实验结果表明该方法在实现意图和优化 KPI 方面表现良好。
Aug, 2022
本文提出了一种多智能体 Actor-Critic 算法,通过分解多智能体问题以及知识蒸馏和价值匹配等方法,使智能体之间能够共享信息并解决维度灾难问题,进而在离散和连续动作空间中实现更好的性能。
Mar, 2019
通过将各种状态空间统一为固定大小的输入,以便在 MAS 中的不同场景中使用一种统一的深度学习策略,我们介绍了一种新的框架,使得多智能体强化学习能够进行迁移学习。在 StarCraft Multi-Agent Challenge(SMAC)环境中,通过从其他场景学习到的机动技能,相比于从头学习的智能体,我们的方法在多智能体学习性能方面取得了显著的提升。此外,通过采用课程式迁移学习(CTL),使我们的深度学习策略逐步获取各个预先设计的同质学习场景中的知识和技能,促进智能体之间和智能体内部的知识传递,从而在更复杂的异质场景中实现高水平的多智能体学习性能。
Feb, 2024
本文通过针对一名特定智能体的定向攻击,研究了协作多智能体强化学习系统的不稳定性,同时引入了一种新的攻击方式,在 StartCraft II 多智能体基准测试上将团队胜率从 98.9% 降至 0%。
Mar, 2020