情景依赖的因果影响基础下的合作多智能体强化学习

Dec, 2023

情景依赖的因果影响基础下的合作多智能体强化学习

Situation-Dependent Causal Influence-Based Cooperative Multi-agent Reinforcement Learning

Xiao Du, Yutong Ye, Pengyu Zhang, Yaning Yang, Mingsong Chen...

TL;DR提出了一种名为 Situation-Dependent Causal Influence-Based Cooperative Multi-agent Reinforcement Learning (SCIC) 的新型多智能体强化学习算法，通过基于因果关系干预和条件互信息，探测特定情况下智能体间的因果影响，从而促进智能体之间的合作。实验结果表明与其他算法相比，该方法优于目前最先进的方法。

Abstract

Learning to collaborate has witnessed significant progress in multi-agent reinforcement learning (MARL). However, promoting coordination among agents and enhancing exploration capabilities remain challenges. In multi-agent environments, interactions between agents are limited in specif

multi-agent reinforcement learning cooperation exploration capabilities causal influence collaborative reinforcement learning

发现论文，激发创造

社交影响：多智能体深度强化学习的内在动机

提出了一种通过奖励代理对其他代理的行为产生因果影响来实现多智能体强化学习中的协调和沟通的统一机制，通过使用反事实推理来评估因果影响，结果显示影响导致在具有挑战性的社交困境环境中协调性和沟通的增强，同时增加了深度强化学习代理的学习曲线，并且在学习沟通协议方面也更有意义。

Oct, 2018

基于情景无关表征实现多智能体迁移强化学习

通过将各种状态空间统一为固定大小的输入，以便在 MAS 中的不同场景中使用一种统一的深度学习策略，我们介绍了一种新的框架，使得多智能体强化学习能够进行迁移学习。在 StarCraft Multi-Agent Challenge（SMAC）环境中，通过从其他场景学习到的机动技能，相比于从头学习的智能体，我们的方法在多智能体学习性能方面取得了显著的提升。此外，通过采用课程式迁移学习（CTL），使我们的深度学习策略逐步获取各个预先设计的同质学习场景中的知识和技能，促进智能体之间和智能体内部的知识传递，从而在更复杂的异质场景中实现高水平的多智能体学习性能。

Feb, 2024

通过相互帮助促进多智体强化学习中的合作

本研究提出一种基于互助的多智能体强化学习算法 (MH-MARL)，通过利用预期动作模块来促进代理之间的相互帮助，以提高在合作任务中的性能表现。通过实验结果表明，MH-MARL 在成功率和累积奖励方面都提高了 MARL 的性能。

Feb, 2023

在多智能体环境中独立地从因果关系中学习

通过从因果关系的角度研究，本文探讨了多智能体强化学习中的懒惰代理问题，并将其与因果关系领域建立联系，通过实验证明个体观察与团队奖励之间存在因果关系，进一步提高多智能体强化学习中独立代理的性能和智能行为。

Nov, 2023

多智能体环境中高效协作的因果关系发现

本研究探讨了因果关系在多智能体强化学习中的应用，证明了因果关系估计可以用于改善智能体的学习并用 Amortized Causal Discovery 自动检测和惩罚懒惰的智能体，从而提高了团队的整体表现和个体能力。

Jun, 2023

多智能体强化学习的统一博弈论方法

本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法，用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题，并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.

Nov, 2017

强化学习效率提升的因果影响检测

本文研究如何通过对强化学习智能体在特定情况下的影响力进行测量，结合条件互信息将此度量值引入强化学习算法，提高机器人操作任务中的数据效率。

Jun, 2021

高效多智能体强化学习中的因果检测

通过引入时间因果关系的惩罚机制，多智能体强化学习问题中的懒惰智能体可以在了解到其本地观察与团队回报的因果关系的基础上，在团队表现和个体能力方面得到改善。

Mar, 2023

演化内在动机以促进利他行为

本篇论文研究多智体系统中的合作问题，发现可通过结合自然选择与 MARL 来实现无模型的协作特征学习，支持多层次选择的创新模块化架构结构为此提供了解决方案。

Nov, 2018

具有技能发现的分层合作多智能体强化学习

为实现人工智能在团队比赛中与人类的合作，本文提出了一种基于分层式多智能体强化学习算法的技能发现和团队协作方法，并通过实验验证其可行性。

Dec, 2019