多智能体强化学习的交互模式分离

Jul, 2022

多智能体强化学习的交互模式分离

Interaction Pattern Disentangling for Multi-Agent Reinforcement Learning

Shunyu Liu, Jie Song, Yihe Zhou, Na Yu, Kaixuan Chen...

TL;DR本文提出了一种基于互动原型分离（OPT）的多智能体学习方法，将联合值函数分解为代理值函数以及实体交互成原型，以过滤掉無关實體之間的噪音交互，从而显着提高泛化能力和可解释性，并在单任务和多任务基准测试中获得了优于现有技术的结果。

Abstract

Deep cooperative multi-agent reinforcement learning has demonstrated its remarkable success over a wide spectrum of complex control tasks. However, recent advances in multi-agent learning mainly focus on value decomposi

multi-agent learning value decomposition interaction prototypes generalizability mutual information

发现论文，激发创造

视觉模型基强化学习中的实体抽象

该论文测试了一种新的模型，可以通过对象之间的本地交互来建模场景，而不是全局建模，从而在泛化到以前未遇到过的组合空间的物理任务时提供巨大的益处。论文提出了一种名为 OP3 的实体为中心的感知、预测和规划的方法，使用它可以预测和规划具有不同数量和配置的对象的模型，没有监督的学习构建实体表示。OP3 通过对每个实体表示的对称处理来强制执行实体抽象，这使得它能够扩展到训练中没有观察到的不同数量和配置的对象上。该方法的主要技术挑战在于将这些实体表示地面化到环境中的实际对象，该论文将该变量绑定问题视为推理问题，并开发了一种交互式推理算法，该算法使用时间连续性和交互式反馈将关于对象属性的信息绑定到实体变量上。在堆叠积木任务中，OP3 泛化到新的积木配置和比训练时观察到的对象更多的对象，表现优于假设具有对象监督能力的 oracle 模型，比不表现实体抽象的最先进视频预测模型的准确率高两到三倍。

Oct, 2019

利用世界模型的解缠以增强基于价值的多智能体强化学习

通过提出一种名为价值分解框架与解耦世界模型的新型基于模型的多智能体强化学习方法，本研究解决了多智能体在相同环境下实现共同目标的挑战，降低了样本复杂度，并通过实验结果表明，在 StarCraft II 微管理挑战中，该方法在样本效率和击败敌军方面表现出卓越的性能。

Sep, 2023

基于深度强化学习的多智能体通信与协作决策研究

本篇论文基于 CTDE 框架，研究基于 MAPPO 算法的多智能体合作决策，并引入了基于权重调度和注意力机制的多智能体通信机制以缓解多智能体环境中的非稳定性。提出了 MCGOPPO 算法，并在 SMAC 和 MPE 上进行了实验，结果表明此算法可以改善多智能体环境中的非稳定性，提高多智能体间的协同决策能力。

May, 2023

面向分散网络系统的可扩展基于模型的策略优化

本文旨在提高多智能体控制的数据效率，采用基于模型的学习方式，通过多个代理通过本地通信进行合作完成任务，实现分散的基于模型的策略优化框架，提出了扩展的价值函数，理论上证明了产生的策略梯度是真实策略梯度的一个紧密近似，并在智能交通系统的多项基准测试上展示了出色的数据效率和与真实模型的无模型方法匹配的性能。

Jul, 2022

协作多智体学习的价值分解网络

利用价值分解网络架构解决合作多智能体强化学习中的观测部分性、虚假奖励和 “懒惰智能体” 问题，并在与共享权重、角色信息和信息通道相结合的情况下，在部分可观测的多智能体领域取得优越结果。

Jun, 2017

多智能体系统的全分散策略：信息理论方法

本文提出了基于信息论的速率畸变理论框架，它使得我们能够分析完全分散的政策能够重构最优解的程度，同时，该框架提供了自然的扩展解决了一个代理应该与哪些节点通信以提高其个体策略的性能的问题。

Jul, 2017

使用指针网络进行在线对话分离

本文提出了一种面向在线对话分离的端到端框架，利用注意力机制和联合学习目标实现对话分离，并在 Ubuntu IRC 数据集上取得了表现最好的结果。

Oct, 2020

部分可观测下的深度分散式多任务多智能体强化学习

研究了多智能体下的多任务增强学习问题，提出了一种去中心化的单任务学习方法，并介绍了一种将单任务策略转化为适用于多个相关任务的统一策略的方法，无需明确标识任务身份。

Mar, 2017

强化学习解开部分观测的多比特量子状态

利用偏知识控制多量子位纠缠是量子交互动力学领域中的一个未经探索的范式，本论文采用一种深度强化学习方法构建任意 4、5 和 6 量子位状态的简化量子解分路，证明了该方法能够识别和利用多量子位态的纠缠结构，为真实量子计算应用提供了潜力。

Jun, 2024

合作游戏的交互式逆强化学习

该研究探讨了如何设计自主智能体，使其在没有访问联合奖励函数的情况下能够有效地与潜在的次优合作伙伴进行合作。我们将这个问题建模为一个合作的、情节性的两个代理 Markov 决策过程。我们分析了该交互式两个代理场景中关于奖励函数的信息如何被获得，结果显示学习代理的策略对转移函数具有显著影响时，奖励函数可以被高效地学习。

Nov, 2021