CAMMARL: 多智能体强化学习中的符合性行为建模

Jun, 2023

CAMMARL: 多智能体强化学习中的符合性行为建模

CAMMARL: Conformal Action Modeling in Multi Agent Reinforcement Learning

Nikunj Gupta, Samira Ebrahimi Kahou

TL;DR本文提出了一种基于置信集和符合预测的多智能体强化学习算法 CAMMARL，并通过在两个完全协作的多智能体任务中进行的多个实验证明了该算法可以提高智能体的策略学习能力。

Abstract

Before taking actions in an environment with more than one intelligent agent, an autonomous agent may benefit from reasoning about the other agents and utilizing a notion of a guarantee or confidence about the behavior of the system. In this article, we propose a novel →

multi-agent reinforcement learning cammarl conformal prediction autonomous agent policy learning

发现论文，激发创造

基于模型的多智能体强化学习：最新进展和前景展望

本文回顾了现有的关于基于模型的多智能体强化学习的研究，包括理论分析、算法和应用，并分析了基于模型的多智能体强化学习的优势和潜力。此外，我们提供了算法的详细分类，并根据多智能体情景中固有的挑战指出每个算法的优点和缺点。最后，我们总结了这一领域未来发展的有前途的方向。

Mar, 2022

风险感知的分布式多智能体强化学习

研究了在未知环境下的决策问题，使用分布式多智能体强化学习和条件风险价值的方法进行决策，并通过模拟评估验证了该方法。

Apr, 2023

多模态环境不确定性下使用课程学习提高多智能体强健性

该研究是第一个对多模态环境不确定性的多智能体强化学习问题进行广义建模的工作，并提出了基于课程学习技术的多模态不确定性的鲁棒训练方法，通过在合作和竞争的多智能体强化学习环境下的广泛实验结果表明我们的方法达到了最先进的鲁棒性水平。

Oct, 2023

多智能体强化学习介绍及其在自主移动中的应用综述

该论文介绍了多智能体强化学习在自主移动中的应用，包括行为规划、车辆之间通信、性能提升等方面，并探讨了该领域的一些最新方法和想法。

Mar, 2022

利用对称先验进行多智体强化学习

本文提出了一个框架，通过整合数据增强和良好设计的一致性损失，利用先前的知识来改善现有的多智能体强化学习方法，该框架适用于大多数现有的多智能体强化学习算法，并在多项具有挑战性的任务上进行了实验验证其有效性，同时在物理多机器人测试平台上证明了该框架的优越性。

Jul, 2023

多智能体强化学习的统一博弈论方法

本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法，用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题，并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.

Nov, 2017

用于基于意图的蜂窝网络服务保障的多智能体强化学习

该论文介绍了一种基于多智能体强化学习技术的意图管理方法，通过优化重要 KPI 并协调各个闭环实现多个意图同时满足，实验结果表明该方法在实现意图和优化 KPI 方面表现良好。

Aug, 2022

多智能体强化学习中的策略蒸馏与价值匹配

本文提出了一种多智能体 Actor-Critic 算法，通过分解多智能体问题以及知识蒸馏和价值匹配等方法，使智能体之间能够共享信息并解决维度灾难问题，进而在离散和连续动作空间中实现更好的性能。

Mar, 2019

基于情景无关表征实现多智能体迁移强化学习

通过将各种状态空间统一为固定大小的输入，以便在 MAS 中的不同场景中使用一种统一的深度学习策略，我们介绍了一种新的框架，使得多智能体强化学习能够进行迁移学习。在 StarCraft Multi-Agent Challenge（SMAC）环境中，通过从其他场景学习到的机动技能，相比于从头学习的智能体，我们的方法在多智能体学习性能方面取得了显著的提升。此外，通过采用课程式迁移学习（CTL），使我们的深度学习策略逐步获取各个预先设计的同质学习场景中的知识和技能，促进智能体之间和智能体内部的知识传递，从而在更复杂的异质场景中实现高水平的多智能体学习性能。

Feb, 2024

合作多智能体强化学习的鲁棒性研究

本文通过针对一名特定智能体的定向攻击，研究了协作多智能体强化学习系统的不稳定性，同时引入了一种新的攻击方式，在 StartCraft II 多智能体基准测试上将团队胜率从 98.9% 降至 0%。

Mar, 2020