多智能体问题空间中的协同驱动学习
本文研究深度强化学习在多智能体领域的应用,提出一种基于演员-评论家方法的适应性策略,可成功学习需要多智能体协作的复杂策略,并通过使用每个智能体的策略集进行训练,得到了更强大、更健壮的策略。在合作和竞争场景中,我们的方法相比现有方法能够发现各种物理和信息协调策略。
Jun, 2017
本综述文章探讨了最新的多智能体强化学习算法,特别关注建模和解决合作多智能体强化学习问题的五种常见方法,以及MARL在真实世界应用中的成功,并提供了可用于MARL研究的环境列表和可能的研究方向。
Aug, 2019
本文在selective的视角下提供了多智能体强化学习领域的理论分析综述,重点关注Markov/stochastic games和extensive-form games框架下的MARL算法的理论结果,并突出了MARL理论的几个新角度和分类,探讨了在学习博弈论、分散式多智能体、平均场与(非)收敛、多类型任务等方面的有前途的未来研究方向。
Nov, 2019
本研究提出了一个多智能体协作系统,使用 HE COGrid 评估了不同 MARL 方法的表现,并通过 SAF 的中心化训练去集中协调,并在不同环境异构性的情况下执行,得出了 SAF 在不同的任务和协调水平下总是表现出色相比于其他方法。
Oct, 2022
多智能体学习是一门涉及博弈论、经济学、社会科学和进化生物学等众多学科交叉的主题。本文概述了多智能体学习的基本概念、问题设置和算法,包括增强学习、多智能体序列决策、多智能体合作的挑战,对最近进展进行了全面综述和相关度量评估,并讨论了该领域的开放性挑战,以期激发新的研究方向。
Dec, 2023
离线多智体强化学习通过静态经验数据集来学习最优的多智体控制,但从静态数据中进行学习面临一些独特的挑战。本文聚焦于协调失败问题,并研究了在离线数据中联合动作在多智体策略梯度方法中的作用,提出了一种基于数据的'最佳响应'方法,并通过分析工具二人多项式博弈展示了该方法存在的简单但被忽视的故障模式,该故障模式可能导致离线环境中的彻底协调失败。基于这些见解,我们提出了一种缓解此类故障的方法,通过优先选择具有联合动作相似性的样本来进行策略学习,并在详细实验中展示了其有效性。然而,我们认为基于优先选择的数据集采样是离线多智体强化学习中一个具有创新潜力的领域,可以与其他有效方法(例如评论家和策略规则化)相结合。重要的是,我们的工作展示了从简化、可追踪的游戏中得出的见解如何转化为对更复杂环境有用的理论基础见解。本项目提供一个交互式笔记本,几乎可以在浏览器中复现出我们的所有结果。
Jul, 2024
多代理强化学习中的中央化训练与分散执行框架存在全局状态引导和地方观测依赖的差距。通过引入基于分层一致性的多智能体强化学习框架,采用对比学习来促进智能体之间的全局一致性,从而实现协同行为而无需直接通信。该框架允许智能体从地方观测中形成全局一致性,并在执行期间将其作为额外信息来指导协同行动,通过多层次的一致性满足各种任务的动态需求。采用自适应注意机制调整每个一致性层的影响,优化即时反应和战略规划之间的平衡,以适应特定任务的要求。通过大量实验和在多机器人系统中的实际应用,展示了我们框架相对于基准的卓越性能,取得了显著的进展。
Jul, 2024
本文研究了在自利的独立学习体之间实现合作的挑战,并提出了一种首个无偏高阶无梯度的策略梯度算法,专注于学习感知的强化学习。通过利用高效的序列模型,我们的算法能够在包含其他智能体学习动态的长观测历史上调节行为,从而在标准社交困境中实现合作行为和高回报。
Oct, 2024