多智能体强化学习的演员 - 注意力 - 评论家模型

ICMLOct, 2018

多智能体强化学习的演员 - 注意力 - 评论家模型

Actor-Attention-Critic for Multi-Agent Reinforcement Learning

Shariq Iqbal, Fei Sha

TL;DR提出了一个基于 Actor-Critic 算法的多智能体强化学习算法，解决了多智能体场景下的信息筛选问题，可应用于大多数多智能体学习问题。

Abstract

reinforcement learning in multi-agent scenarios is important for real-world applications but presents challenges beyond those seen in single-agent settings. We present an →

reinforcement learning multi-agent scenarios actor-critic algorithm decentralized policies attention mechanism

发现论文，激发创造

多视角环境下深度强化学习的演员 - 评论家 - 注意力机制

本文提出了一种基于深度强化学习和注意力机制的多视角环境下的模型，能够学习一个能够根据每个视角的重要性来动态决策的策略，实验结果表明在各种复杂环境中都表现出色。

Jul, 2019

多智能体演员 - 评论家算法与分层图注意力网络

本文提出了一种基于分层图注意力网络和多智能体 actor-critic 的模型，可以进行多智能体表示学习和多智能体策略学习，通过两种特殊设计的图注意力网络促进多智能体之间的协作和竞争，实现在新任务中的策略迁移并优于其他现有方法。

Sep, 2019

未知环境映射的异构多智能体强化学习

本文提出了一种基于 actor-critic 算法的多智能体学习方法，可以让一组异构代理学习无人机覆盖未知环境的分散控制策略，此方法可被应用于国家安全和紧急响应组织中以提高在危险区域中的情境感知能力。

Oct, 2020

多智能体演员 - 评论家在混合协作竞争环境下的应用

本文研究深度强化学习在多智能体领域的应用，提出一种基于演员 - 评论家方法的适应性策略，可成功学习需要多智能体协作的复杂策略，并通过使用每个智能体的策略集进行训练，得到了更强大、更健壮的策略。在合作和竞争场景中，我们的方法相比现有方法能够发现各种物理和信息协调策略。

Jun, 2017

多智能体强化学习中集中式与分散式评论员的对比

本论文分析了中央化和去中央化的评分员方法，旨在提供评分员选择的更深层次理解并阐述算法设计者应考虑到评分员方法的优缺点。

Feb, 2021

分布式强化学习中通信高效的多智能体 Actor-Critic 算法

本文提出了一种基于随机化和多智能体系统 actor-critic 算法的分布式强化学习算法，旨在通过仅与本地邻居通信，协同优化全局平均回报。通过仅发送两个标量值变量，该算法可以解决强连通图的问题。

Jul, 2019

部分观察多智能体环境下的演员 - 评论家策略优化

本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色，并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。

Oct, 2018

多智能体强化学习的异步演员 - 评论家算法

该论文提出一种多代理演员 - 评论家方法，允许代理在异步环境中直接优化策略，以解决多代理系统中同步决策的问题，提高学习效率和性能。

Sep, 2022

基于注意力机制的深度强化学习在多视角环境中的应用

研究了多视角环境下的深度强化学习问题，并提出基于注意力机制的方法以学习动态关注环境中不同视角的重要性以促进决策制定和复杂策略的学习。在 TORCS 赛车模拟器和三个其他带有障碍物的复杂 3D 环境上验证了该方法的有效性。

May, 2019

注意力选项评论家

本文引入基于注意力机制的扩展方法到 option-critic 架构中，以实现带状态抽象的多样性 options 学习，有效解决了 option-critic 中出现的选项主导和频繁切换的问题，并在转移学习任务中展示出更高的效率，可解释性和重复利用性。

Jan, 2022