去中心化多 Agent 协同探索中的新颖性共享

Feb, 2024

去中心化多 Agent 协同探索中的新颖性共享

Settling Decentralized Multi-Agent Coordinated Exploration by Novelty Sharing

Haobin Jiang, Ziluo Ding, Zongqing Lu

TL;DR提出一种名为MACE的简单而有效的多智能体协同探索方法，通过仅传递本地新奇性，代理可以考虑其他代理的本地新奇性来近似全局新奇性，并引入加权互信息来衡量代理行为对其他代理累积新奇性的影响，在后见中将其转换为内在奖励，以鼓励代理对其他代理的探索产生更多影响并促进协同探索，并在三个稀疏奖励的多智能体环境中展示了MACE在性能上的优越性。

Abstract

Exploration in decentralized cooperative multi-agent reinforcement learning faces two challenges. One is that the novelty of global states is unavailable, while the →

发现论文，激发创造

多智能体强化学习中基于内在奖励的协调探索

该论文介绍了一种为多智能体设计内在奖励的框架，以促进协调探索，然后开发了一种方法来学习如何动态选择若干探索方式以最大化外在奖励。通过在具有稀疏奖励的合作域和需要改变协调模式的具有挑战性的多阶段任务中进行实验证明了该方法的有效性。

May, 2019

基于影响力的多智能体探索

为了解决探索性任务中的探索难题，本文针对具有转换依赖性的多智能体环境提出了两种探索方法：基于信息论影响的探索（EITI）和基于决策论影响的探索（EDTI），通过利用智能体协作行为中交互作用的作用加以利用。我们通过优化这两种方法来鼓励智能体协调他们的探索和学习策略，最终通过在多智能体环境中的实验演示了我们方法的高效性。

Oct, 2019

多智能体深度强化学习的协作探索

本文提出协作多智能体探索（CMAE）方法，通过归一化熵技术从多个状态空间中选择目标，实现智能体之间探索的协调性，取得了多项任务的良好表现。

Jul, 2021

具有好奇心驱动探索的情节式多智能体强化学习

本篇论文提出了Episodic Multi-agent 强化学习方法，并把个体 Q 值预测误差作为内部奖励，使用情节式记忆从经验中提升策略训练，从而实现多代理协作性问题的有效探索和高效学习。在StarCraft II 微型管理基准测试中，我们的方法显著优于现有情况下的MARL基线。

Nov, 2021

ELIGN：基于多智能体内在奖励的期望对齐

该研究探讨在分散型训练或稀疏奖励的情况下，提出了一种自我监督的本质奖励 ELIGN - 期望对齐 - 以及其在多智能体协调问题上的有效性。通过期望对齐代理能够学习到协作行为并且可以进行零次协调，这比基于好奇心的探索方法更加可行。

Oct, 2022

以混合目标为驱动的好奇心多智能体探索

本文提出了一种基于好奇心驱动的多智能体共探算法，旨在鼓励多智能体在合作环境中探索独特而有意义的动作以达到最佳表现。实验表明，这种好奇心驱动的探索方法能够有效促进多智能体整体探索并提升共同导航任务中稀疏奖励的MARL算法的表现。

Oct, 2022

完全去中心化的合作多智能体强化学习：调查

该论文系统地回顾了两种全面分散设置下的全面分散方法，即最大化所有代理的共享奖励和最大化所有代理的个人奖励之和，并讨论了未来研究方向。

Jan, 2024

多智能体深度强化学习中的联合内在动机

多智能体深度强化学习中，稀疏奖励与智能体之间的协调是挑战，本文提出了一种基于联合行为的奖励策略，并通过JIM方法展示了多智能体内在动机在解决需要高协调水平的任务中的重要性。

Feb, 2024

合作多智体强化学习中的随机探索

我们提出了第一个关于合作多智能体强化学习（MARL）中可证明效率的随机探索的研究，提出了一种统一的随机探索算法框架，以及两种基于Thompson Sampling（TS）的算法。我们在多个并行强化学习环境中评估了我们的方法，包括深度探索问题，视频游戏和能源系统中的一个实际问题。实验证明，我们的框架即使在过渡模型误指定的条件下，也能达到更好的性能，此外，我们还建立了我们统一框架与联邦学习的实际应用之间的联系。

Apr, 2024

MESA：基于状态动作空间结构的多智能体学习中的合作元探索

MESA 是一种新颖的元探索方法，通过从训练任务中识别代理的高奖励联合状态-动作子空间，然后学习一组多样性的探索策略来解决多智能体协同学习中有效探索的问题。实验证明，通过学习到的探索策略，MESA 在稀疏奖励环境和挑战性任务中均能显著提高性能，并具备在测试时泛化到更复杂任务的能力。

May, 2024