利用对称先验进行多智体强化学习

Jul, 2023

利用对称先验进行多智体强化学习

ESP: Exploiting Symmetry Prior for Multi-Agent Reinforcement Learning

Xin Yu, Rongye Shi, Pu Feng, Yongkai Tian, Jie Luo...

TL;DR本文提出了一个框架，通过整合数据增强和良好设计的一致性损失，利用先前的知识来改善现有的多智能体强化学习方法，该框架适用于大多数现有的多智能体强化学习算法，并在多项具有挑战性的任务上进行了实验验证其有效性，同时在物理多机器人测试平台上证明了该框架的优越性。

Abstract

multi-agent reinforcement learning (MARL) has achieved promising results in recent years. However, most existing reinforcement learning methods require a large amount of data for model training. In addition, data-efficient reinforcement learning requires the construction of strong

multi-agent reinforcement learning data-efficient reinforcement learning inductive biases symmetry phenomenon prior knowledge

发现论文，激发创造

基于模型的多智能体强化学习：最新进展和前景展望

本文回顾了现有的关于基于模型的多智能体强化学习的研究，包括理论分析、算法和应用，并分析了基于模型的多智能体强化学习的优势和潜力。此外，我们提供了算法的详细分类，并根据多智能体情景中固有的挑战指出每个算法的优点和缺点。最后，我们总结了这一领域未来发展的有前途的方向。

Mar, 2022

基于情景无关表征实现多智能体迁移强化学习

通过将各种状态空间统一为固定大小的输入，以便在 MAS 中的不同场景中使用一种统一的深度学习策略，我们介绍了一种新的框架，使得多智能体强化学习能够进行迁移学习。在 StarCraft Multi-Agent Challenge（SMAC）环境中，通过从其他场景学习到的机动技能，相比于从头学习的智能体，我们的方法在多智能体学习性能方面取得了显著的提升。此外，通过采用课程式迁移学习（CTL），使我们的深度学习策略逐步获取各个预先设计的同质学习场景中的知识和技能，促进智能体之间和智能体内部的知识传递，从而在更复杂的异质场景中实现高水平的多智能体学习性能。

Feb, 2024

多智能体强化学习的统一博弈论方法

本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法，用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题，并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.

Nov, 2017

共享多智能体强化学习中的多样性庆祝

本研究介绍了多智能体强化学习中多样性的重要性，并提出了信息理论正则化和共享神经网络架构中的代理特定模块的方法，以促进代理之间的协作和多样性，实验结果表明该方法在 Google Research Football 和超难的星际争霸 II 微观管理任务上取得了最先进的表现。

Jun, 2021

${m E}(3)$-Equivariant Actor-Critic 合作多智能体强化学习方法

本文重点研究了自然界中对称模式的识别和分析，在物理学中导致了引力定律的制定和化学结构研究的进展。我们着眼于利用某些协同多智能体强化学习问题中固有的欧几里得对称性，该问题在许多应用中普遍存在。我们首先形式化地表征了一类具有对称最优值和策略存在性的马尔科夫博弈的子类。在这些属性的基础上，我们设计了具有对称约束的神经网络架构，作为多智能体演员 - 评论家方法的归纳偏见。这种归纳偏见在各种协同多智能体强化学习基准测试中表现出优越的性能，以及在具有重复对称模式的未见场景中进行的零样本学习和迁移学习等令人印象深刻的泛化能力。代码可在此 https URL 获取。

Aug, 2023

协作多智能体强化学习的高效分布式框架

本研究提出了一种基于 actor-work-learner 架构的分布式 MARL 框架，在 MaCA 军事模拟环境和 SMAC 3D 实时战略游戏环境中验证了其在多智能体强化学习性能提升方面的有效性。

May, 2022

从多智能体到多机器人：一款可扩展的多机器人强化学习训练和评估平台

本文介绍了一个用于多机器人强化学习的可扩展仿真平台 SMART，该平台包含了一个仿真环境和一个真实的多机器人系统，以提供多样化的交互场景进行训练，并支持基于插件的算法实现。在此基础上，我们研究了合作驾驶变道场景所涉及到的若干具有挑战性的问题，并开源我们的仿真环境及其相关基准测试任务和最先进的基线模型，以推动和强化多机器人强化学习的研究。

Jun, 2022

机器人团队的分布式强化学习：回顾

本文总结了分布式无模型多智能体强化学习在多机器人协作中面临的挑战以及现有的解决方案类别，并介绍了基准测试和机器人应用，同时讨论了当前的研究方向。

Apr, 2022

高回放率赋予样本高效的多智能体强化学习

增加重播比例（或更新至数据比例）可以显著提高多智能体强化学习算法的样本效率。

Apr, 2024

异质代理镜像学习：协作多智能体强化学习的一系列解决方案

本文介绍了一种名为异构代理镜像学习（HAML）的新型框架，该框架提供了一种通用的 MARL 算法设计模板，解决了在奖励单调性或收敛时的非最优性能问题，通过证明来自 HAML 模板的算法满足单调改进联合奖励和收敛到纳什均衡的期望属性，并通过在星际争霸 II 和多智能体 MuJoCo 任务中验证了 HAML 的实用性。

Aug, 2022