多智体强化学习中的随机实体分解

ICMLJun, 2020

多智体强化学习中的随机实体分解

Randomized Entity-wise Factorization for Multi-Agent Reinforcement Learning

Shariq Iqbal, Christian A. Schroeder de Witt, Bei Peng, Wendelin Böhmer, Shimon Whiteson...

TL;DR本文介绍了一种名为 REFIL 的方法，能够在多个具有不同类型和数量的代理和非代理实体的任务中发现共性，从而提高多任务环境下的学习效率，并在挑战性的多任务 StarCraft 微管理环境中显著优于所有强基线。

Abstract

multi-agent settings in the real world often involve tasks with varying types and quantities of agents and non-agent entities; however, common patterns of behavior often emerge among these agents/entities. Our method aims to leverage these commonalities by asking the question: ``What i

multi-agent settings common patterns of behavior state-action trajectories randomly factorized multi-task settings

发现论文，激发创造

多智能体强化学习分解分布式值函数的统一框架

提出了一个名为 DFAC 的统一框架，用于将分布式 RL 与值函数分解方法相结合，以对多智能体 RL 问题进行建模和解决。DFAC 能够因子化回报分布，使得它能够在多个基准测试中具有更好的表现。

Jun, 2023

多智能体强化学习中带有反事实预测的助攻价值因子分解算法

本篇论文提出了 PAC 框架，其中包含基于 Assistive 信息和 Counterfactual Predictions 的新颖 counterfactual loss，此框架考虑到局部顺序对表征函数造成的约束并解决了该限制，同时采用基于变分推断的信息编码方法以收集并编码来自基线的反事实预测，并推导出针对每个代理的分解策略，最后在多智能体捕食 - 逃生和一组 StarCraft II 微观管理任务中验证了 PAC 的有效性。

Jun, 2022

可辨别因子分解的世界模型学习

本文提出了 IFactor 框架，它由四类潜在状态变量建模，以捕捉强化学习系统中各种信息的不同方面，并在合成环境和深度强化学习环境中展示了其性能优于基线的实验结果。

Jun, 2023

更集中化的训练，仍分散化的执行：多智能体条件策略分解

本研究探索了如何在协作多智能体强化学习中融合价值分解和演员 - 评论家，并提出了多智能体条件策略分解 (MACPF) 的方法，以更好地实现部分可观察环境下的学习。同时，通过在不同的合作 MARL 任务中进行实验证明 MACPF 相对于基线的表现更优。

Sep, 2022

DFAC 框架：通过分位点混合因式分解价值函数的多智能体分布式 Q 学习

本研究提出分布式价值函数分解（DFAC）框架，将分布式 RL 和价值函数分解方法相结合以解决多智能体强化学习环境中不确定性和随机性问题，实验证明 DFAC 可以在含随机回报的博弈任务上优于期望价值函数分解方法。

Feb, 2021

QFree：多智能体强化学习的通用价值函数因子分解

我们提出了一种 MARL 的通用价值函数分解方法 QFree，它基于优势函数开发了 IGM 原则的数学等价条件，并使用更具表达能力的混合网络结构来满足等价分解。通过在 MARL 算法的策略评估过程中将等价条件作为正则化项开发了一种新型损失函数。我们在非单调矩阵博弈场景和 Starcraft Multi-Agent Challenge (SMAC) 等复杂 MARL 基准环境中验证了该方法的有效性，并展示了其在性能方面达到了最新水平。

Nov, 2023

学习动态属性分解世界模型以提高多目标强化学习效率

在这篇论文中，我们介绍了动态属性因子强化学习（DAFT-RL）框架，通过利用物体中心表示学习从视觉输入中提取物体，并学习对它们进行分类和推断其潜在参数。我们通过学习类别的模板图和对象之间属性级别的相互作用模式图，以及描述对象之间相互作用的动态交互图，可以学习一个策略，从而可以在新的环境中直接应用通过估计交互和潜在参数。我们在三个基准数据集中评估了 DAFT-RL，并展示了我们的框架在跨不同属性和潜在参数的未知对象之间进行泛化以及复合之前学习的任务方面优于现有技术。

Jul, 2023

利用世界模型的解缠以增强基于价值的多智能体强化学习

通过提出一种名为价值分解框架与解耦世界模型的新型基于模型的多智能体强化学习方法，本研究解决了多智能体在相同环境下实现共同目标的挑战，降低了样本复杂度，并通过实验结果表明，在 StarCraft II 微管理挑战中，该方法在样本效率和击败敌军方面表现出卓越的性能。

Sep, 2023

基于事实的多智能体强化学习代理建模

在多智能体系统中，代理需要在环境中与其他代理进行交互和协作。使用基于事实的代理建模（FAM）方法，该论文提出了一种方法，通过基于局部信息的事实基准推理网络（FBI）对部分可观察环境中的其他代理进行建模，以实现对未知情景下的代理建模和多智能体强化学习任务中的自适应合作策略。实验结果表明，相比基线方法，FAM 可以有效提高代理策略学习的效率，并在复杂的竞争 - 合作混合情景中获得更高的回报。

Oct, 2023

融合前瞻性和想象力：基于模型的协作多智能体强化学习

本文提出了一种隐式的基于模型的多智能体强化学习方法，基于价值分解方法，能够提高在不同部分可观察的马尔可夫决策过程领域中的样本效率。

Apr, 2022