多智能体问题空间中的协同驱动学习

Sep, 2018

多智能体问题空间中的协同驱动学习

Coordination-driven learning in multi-agent problem spaces

Sean L. Barton, Nicholas R. Waytowich, Derrik E. Asher

TL;DR本文研究了协调在多智能体强化学习中的作用，并提出了一种定量衡量多智能体系统中的协调性的新方法，进一步讨论了采用此类指标来优化协调智能体策略的重要性，以及其在对手感知强化学习中的含义。

Abstract

We discuss the role of coordination as a direct learning objective in multi-agent reinforcement learning (MARL) domains. To this end, we p

发现论文，激发创造

多智能体演员-评论家在混合协作竞争环境下的应用

本文研究深度强化学习在多智能体领域的应用，提出一种基于演员-评论家方法的适应性策略，可成功学习需要多智能体协作的复杂策略，并通过使用每个智能体的策略集进行训练，得到了更强大、更健壮的策略。在合作和竞争场景中，我们的方法相比现有方法能够发现各种物理和信息协调策略。

Jun, 2017

合作多智能体深度强化学习综述

本综述文章探讨了最新的多智能体强化学习算法，特别关注建模和解决合作多智能体强化学习问题的五种常见方法，以及MARL在真实世界应用中的成功，并提供了可用于MARL研究的环境列表和可能的研究方向。

Aug, 2019

多智能体强化学习：理论和算法的选择性概述

本文在selective的视角下提供了多智能体强化学习领域的理论分析综述，重点关注Markov/stochastic games和extensive-form games框架下的MARL算法的理论结果，并突出了MARL理论的几个新角度和分类，探讨了在学习博弈论、分散式多智能体、平均场与（非）收敛、多类型任务等方面的有前途的未来研究方向。

Nov, 2019

具有状态的主动协调器：协作多智能体强化学习中的协调和环境异质性

本研究提出了一个多智能体协作系统，使用 HE COGrid 评估了不同 MARL 方法的表现，并通过 SAF 的中心化训练去集中协调，并在不同环境异构性的情况下执行，得出了 SAF 在不同的任务和协调水平下总是表现出色相比于其他方法。

Oct, 2022

多智能体学习中的合作回顾

多智能体学习是一门涉及博弈论、经济学、社会科学和进化生物学等众多学科交叉的主题。本文概述了多智能体学习的基本概念、问题设置和算法，包括增强学习、多智能体序列决策、多智能体合作的挑战，对最近进展进行了全面综述和相关度量评估，并讨论了该领域的开放性挑战，以期激发新的研究方向。

Dec, 2023

多智能体强化学习：综述

该论文调查了多智能体系统中学习最优控制的复杂性，旨在深入理解多智能体应用的机遇和挑战，为研究人员和从业者提供有价值的观点，以促进该领域的发展。

Dec, 2023

完全去中心化的合作多智能体强化学习：调查

该论文系统地回顾了两种全面分散设置下的全面分散方法，即最大化所有代理的共享奖励和最大化所有代理的个人奖励之和，并讨论了未来研究方向。

Jan, 2024

合作离线多智能体强化学习中的协调失败

离线多智体强化学习通过静态经验数据集来学习最优的多智体控制，但从静态数据中进行学习面临一些独特的挑战。本文聚焦于协调失败问题，并研究了在离线数据中联合动作在多智体策略梯度方法中的作用，提出了一种基于数据的'最佳响应'方法，并通过分析工具二人多项式博弈展示了该方法存在的简单但被忽视的故障模式，该故障模式可能导致离线环境中的彻底协调失败。基于这些见解，我们提出了一种缓解此类故障的方法，通过优先选择具有联合动作相似性的样本来进行策略学习，并在详细实验中展示了其有效性。然而，我们认为基于优先选择的数据集采样是离线多智体强化学习中一个具有创新潜力的领域，可以与其他有效方法（例如评论家和策略规则化）相结合。重要的是，我们的工作展示了从简化、可追踪的游戏中得出的见解如何转化为对更复杂环境有用的理论基础见解。本项目提供一个交互式笔记本，几乎可以在浏览器中复现出我们的所有结果。

Jul, 2024

基于层次一致性的多智能体强化学习在多机器人协作任务中的应用

多代理强化学习中的中央化训练与分散执行框架存在全局状态引导和地方观测依赖的差距。通过引入基于分层一致性的多智能体强化学习框架，采用对比学习来促进智能体之间的全局一致性，从而实现协同行为而无需直接通信。该框架允许智能体从地方观测中形成全局一致性，并在执行期间将其作为额外信息来指导协同行动，通过多层次的一致性满足各种任务的动态需求。采用自适应注意机制调整每个一致性层的影响，优化即时反应和战略规划之间的平衡，以适应特定任务的要求。通过大量实验和在多机器人系统中的实际应用，展示了我们框架相对于基准的卓越性能，取得了显著的进展。

Jul, 2024

通过学习感知的策略梯度实现多智能体合作

本文研究了在自利的独立学习体之间实现合作的挑战，并提出了一种首个无偏高阶无梯度的策略梯度算法，专注于学习感知的强化学习。通过利用高效的序列模型，我们的算法能够在包含其他智能体学习动态的长观测历史上调节行为，从而在标准社交困境中实现合作行为和高回报。

Oct, 2024