逆因子化 Q-Learning 用于合作多智能体模仿学习

Oct, 2023

逆因子化 Q-Learning 用于合作多智能体模仿学习

Inverse Factorized Q-Learning for Cooperative Multi-agent Imitation Learning

Viet Bui, Tien Mai, Thanh Hong Nguyen

TL;DR该论文提出了一种针对合作多智能体系统的新颖多智能体模仿学习算法，通过使用混合网络聚合分散的 Q 函数，实现了集中式学习，并在具有高度挑战性的竞争性和合作性多智能体游戏环境中进行了广泛实验，表明该算法相对于现有的多智能体模仿学习算法具有显著的有效性。

Abstract

This paper concerns imitation learning (IL) (i.e, the problem of learning to mimic expert behaviors from demonstrations) in cooperative multi-agent systems. The learning problem under consideration poses several

imitation learning cooperative multi-agent systems inverse soft-q learning multi-agent il algorithm mixing networks

发现论文，激发创造

IQ-Learn: 逆软 Q 学习用于模仿

介绍了一种动态感知的逆强化学习方法 ——IQ-Learn，它通过学习单个 Q 函数来避免对抗性训练，并可在标准测试中取得最好的结果，比现有方法在所需的环境交互数量和高维空间可扩展性方面表现优异。

Jun, 2021

多智能体系统中独立学习的近似全局收敛性

独立学习是一个常用方法来实现大规模多智能体系统的可扩展性，本文研究了两个代表性算法，在基于价值函数和策略的框架中，为近似全局收敛提供了首个有限样本分析结果。这些结果揭示了样本复杂度约为 ϵ^(-2)，考虑了智能体间的依赖关系和独立学习实现全局收敛的基本限制。为了建立这一结果，我们开发了一种新的独立学习分析方法，通过构建可分离的马尔可夫决策过程 (MDP) 进行收敛性分析，然后限制由于可分离 MDP 与原始 MDP 之间的模型差异所造成的差距。此外，我们使用合成 MDP 和电动车充电示例进行数值实验，验证了我们的理论发现并展示了独立学习的实际适用性。

May, 2024

多智能体生成对抗模仿学习

本文提出了一种新的适用于多智能体环境的 Multi-Agent 模仿学习框架，它建立在广义反向强化学习的基础上，并引入了实用的多智能体演员 - 评论家算法。该方法可用于多个合作或竞争代理的高维环境中模仿复杂的行为。

Jul, 2018

反向软 Q 学习用于离线模仿与次优示范

离线模仿学习主要通过有限的专家演示和较大的次优演示来提出一种基于反向软 Q 学习的新方法，通过添加正则化项来对齐学习得到的回报函数，从而有效解决离线模仿学习中的过拟合问题和训练向次优策略靠拢的问题。该方法在标准基准测试中明显优于其他离线模仿学习方法。

Feb, 2024

大规模多智能体系统的分解 Q 学习

本文针对多智能体场景下动态和智能体之间的复杂性引起的动作空间爆炸问题，提出将 Q 函数近似为分解成对交互的高阶高维张量，并利用复合深度神经网络实现计算，借此简化模型，加快学习过程，通过在多个场景上的实验得出，该方法表现良好。

Sep, 2018

协作多智能体模仿学习

本文研究多个协调代理的演示的模仿学习问题，提出了一种综合了无监督结构学习和传统模仿学习的方法来同时学习潜在的协调模型和单个策略，通过在团队运动中学习多个策略的行为建模问题，表明了本文方法的强大之处。

Mar, 2017

深度多智能体强化学习的单调价值函数分解

QMIX 是一种新的价值方法，可以在集中端到端的方式下训练分散的策略，通过使用混合网络来估计联合行动价值，并通过混合网络中的非负权重和每个代理价值的单调组合来保证中心化和分散策略之间的一致性，并在 StarCraft 多智能体挑战赛（SMAC）中获得了显著的优越性。

Mar, 2020

逆向多智体强化学习在集体行为中的个体奖励探究

本研究提出了一种基于反强化学习和引导成本学习的离轨多智能体强化学习算法（IMARL），该算法可以解决复杂物理系统的集体动态问题，并在单智能体模型和多智能体模型下展现了优异的性能。

May, 2023

QMIX: 深度多智能体强化学习的单调价值函数分解

QMIX 是一种基于价值的方法，可以在中央化端到端方式下训练去中心化策略，其在 StarCraft II 微管理任务中表现良好并优于现有的基于价值的多智能体强化学习方法。

Mar, 2018

合作游戏的交互式逆强化学习

该研究探讨了如何设计自主智能体，使其在没有访问联合奖励函数的情况下能够有效地与潜在的次优合作伙伴进行合作。我们将这个问题建模为一个合作的、情节性的两个代理 Markov 决策过程。我们分析了该交互式两个代理场景中关于奖励函数的信息如何被获得，结果显示学习代理的策略对转移函数具有显著影响时，奖励函数可以被高效地学习。

Nov, 2021