多智能体深度强化学习中的置换不变评论家

Oct, 2019

多智能体深度强化学习中的置换不变评论家

PIC: Permutation Invariant Critic for Multi-Agent Deep Reinforcement Learning

Iou-Jen Liu, Raymond A. Yeh, Alexander G. Schwing

TL;DR通过提出置换不变批评家机制，能够使得多智能体强化学习系统的采样效率与可扩展性得到提高，同时在多智能体颗粒环境中经过实验验证可以使得测试回合奖励提升15％至50％。

Abstract

sample efficiency and scalability to a large number of agents are two important goals for multi-agent reinforcement learning systems. Rece

发现论文，激发创造

多智能体演员-评论家在混合协作竞争环境下的应用

本文研究深度强化学习在多智能体领域的应用，提出一种基于演员-评论家方法的适应性策略，可成功学习需要多智能体协作的复杂策略，并通过使用每个智能体的策略集进行训练，得到了更强大、更健壮的策略。在合作和竞争场景中，我们的方法相比现有方法能够发现各种物理和信息协调策略。

Jun, 2017

基于策略梯度的可扩展集中化深度多智体强化学习

探索使用强化学习解决多智能体问题，将多智能体强化学习问题视为分布式优化问题处理，假设多智能体群体中每个智能体的策略在参数空间中相近且可以用单一策略代替，结果表明该算法在协作和竞争任务上比现有方法更加有效。

May, 2018

多智能体强化学习的演员-注意力-评论家模型

提出了一个基于 Actor-Critic 算法的多智能体强化学习算法，解决了多智能体场景下的信息筛选问题，可应用于大多数多智能体学习问题。

Oct, 2018

随机潜在演员-评论家:具有潜在变量模型的深度强化学习

本文介绍了一种基于深度强化学习的算法，通过学习潜在表示来加速图像的强化学习，提出了随机潜在Actor-Critic（SLAC）算法，并表明其在图像控制任务上的表现优于其他无模型或基于模型的替代方案。

Jul, 2019

深度强化学习的辅助任务——代理建模

本文探讨了如何将演员-评论家（Actor-Critic）方法在深度强化学习中，尤其是异步优势演员评论家（A3C）与代理建模相结合。我们提出了两种体系结构来执行代理建模，旨在学习其他代理的策略作为辅助任务。在协作和竞争领域的实验结果表明，所提出的体系结构稳定了学习，并在学习期望报酬最佳响应时优于标准A3C体系结构。

Jul, 2019

合作任务中的多智能体深度强化学习算法评估

本研究提供一个系统化的评估来比较三种不同类别的多智能体深度强化学习算法（独立学习、集中式多智能体策略梯度、价值分解）在多样化的合作多智能体学习任务中的表现，为算法在不同学习任务中的预期性能提供参考，并提供了有关不同学习方法有效性的见解。我们开源了EPyMARL，延伸了PyMARL代码库以包括其他算法，并允许对算法实现细节进行灵活配置，例如参数共享。最后，我们还开源了两个多智能体研究的环境，重点是在稀疏奖励下的协调。

Jun, 2020

解决多智能体状态空间维度诅咒的方法：一种统一的个体置换框架

该研究提出了一种基于排列不变性和排列等变性思想的多智能体强化学习框架，它包括动态排列网络和超策略网络等实现方式，实验证明这种方法能够显著提高已有多智能体强化学习算法的性能和学习效率，并在SMAC等环境中实现了前所未有的100%胜率。

Mar, 2022

排列不变智能体的最小神经网络模型

通过限制输入的排列和尺寸，构建了一种可以灵活应对变化，具有新型ANN模型的结构，该模型能够在多个控制问题上表现出ANN所缺乏的灵活性，并且可以处理输入索引的快速排列，证明了其在很大程度上具有优越性。

May, 2022

干扰奖励强化学习中的分布式奖励评论框架

我们研究了在未知奖励扰动情况下的强化学习，引入了一种自适应分布式奖励评论家模型，理论上证明它能在技术条件下恢复真实奖励，在离散和连续控制任务中取得了最高回报，甚至在未定向的扰动条件下也能超过基准线的设计。

Jan, 2024

SiT: 对称不变Transformer在强化学习中的泛化

一项关于使用自监督方法改进泛化性能、处理图形对称注意力及展示改进结果的研究，使用Symmetry-Invariant Transformer (SiT)扩展Vision Transformer (ViT)的方法在MiniGrid、Procgen RL基准测试上展示了优于ViTs的泛化能力，并在Atari 100k和CIFAR10上体现了更高的样本效率。

Jun, 2024