在多智能体强化学习中利用语义 Epsilon 贪心探索策略

Jan, 2022

在多智能体强化学习中利用语义 Epsilon 贪心探索策略

Exploiting Semantic Epsilon Greedy Exploration Strategy in Multi-Agent Reinforcement Learning

Hon Tik Tse, Ho-fung Leung

TL;DR本文提出了一种名为 QMIX (SEG) 的新方法，利用值函数分解方法 QMIX 训练每个 agent 的策略以及新颖的语义 ε 贪心 (SEG) 探索策略。实验证明，SEG 通过在行动的组空间中进行探索，可以更好地促进语义探索，并已经在 StarCraft Multi-Agent Challenge（SMAC）基准测试中使 QMIX（SEG）大大优于 QMIX，接近于最先进的 MARL 方法。

Abstract

multi-agent reinforcement learning (MARL) can model many real world applications. However, many MARL approaches rely on epsilon greedy for exploration, which may discourage visiting advantageous states in hard scenarios. In this paper, we propose a new approach QMIX(SEG) for tackling M

multi-agent reinforcement learning qmix(seg)semantic epsilon greedy value function factorization exploration strategy

发现论文，激发创造

有效多智能体 Q-Learning 的图探索

本文提出了一种基于图通信的多智能体强化学习探索技术，通过邻近智能体的协作来估计状态 - 动作空间的不确定性，从而在不需要计数机制且可以应用于连续状态环境的前提下执行更有效的探索行为，可以实现最小的信息交换和完全分散的通信方式，并用理论和实验结果分别验证了其在离散状态和连续状态下的性能。

Apr, 2023

具有好奇心驱动探索的情节式多智能体强化学习

本篇论文提出了 Episodic Multi-agent 强化学习方法，并把个体 Q 值预测误差作为内部奖励，使用情节式记忆从经验中提升策略训练，从而实现多代理协作性问题的有效探索和高效学习。在 StarCraft II 微型管理基准测试中，我们的方法显著优于现有情况下的 MARL 基线。

Nov, 2021

合作多智能体强化学习的高效情节记忆利用

通过引入有效的情节记忆利用（EMU）来加速协同多智能体强化学习（MARL），为了减少学习时间并防止局部最优解，EMU 包括一个可训练的编码器 / 解码器结构和一种基于状态可取性的新奖励结构，理论支持和实证结果表明 EMU 相比传统的情节控制方法具有更好的性能。

Mar, 2024

MESA：基于状态动作空间结构的多智能体学习中的合作元探索

MESA 是一种新颖的元探索方法，通过从训练任务中识别代理的高奖励联合状态 - 动作子空间，然后学习一组多样性的探索策略来解决多智能体协同学习中有效探索的问题。实验证明，通过学习到的探索策略，MESA 在稀疏奖励环境和挑战性任务中均能显著提高性能，并具备在测试时泛化到更复杂任务的能力。

May, 2024

GHQ：异构协作多智体强化学习中的分组混合 Q 学习

本研究实现了一个基于 Starcraft 多智能体协作异构场景的多智能体强化学习算法 - Grouped Hybrid Q 学习 (GHQ)，通过最大化群组间的互信息来加强协调，并在原始和新的异构地图上进行实验以证明 GHQ 相对于其他最先进算法的卓越表现。

Mar, 2023

量子多智能体强化学习与自主移动协作

基于量子供应链，并结合多智能体强化学习和量子优势，提出了一种能够实现多智能体合作、有效利用参数和快速收敛的量子 MARL 算法，并引入了投影值测量技术来进一步提高可伸缩性。

Aug, 2023

Soft-QMIX：整合最大熵用于单调值函数分解

提出了 QMIX 的增强算法，通过在最大熵强化学习框架内引入额外的本地 Q 值学习方法，从而解决 QMIX 的探索策略问题，并保证了局部最优动作与全局最优动作的一致性。该方法在理论和实验上得到了验证，并在矩阵游戏、多智能体粒子环境和 SMAC-v2 中表现出了领先水平的性能。

Jun, 2024

从经验回放缓冲生成子目标的多智能体强化学习

本论文提出了一种名为 MASER 的新方法，它通过从经验回放缓存生成子目标来解决稀疏奖励的协作多代理强化学习问题。数值结果表明，与其他最先进的 MARL 算法相比，MASER 在 StarCraft II 微管理基准测试中显著优于其他算法。

Jun, 2022

非传统的多智能体强化学习

提出一种应对 The off-beat actions 下模型自由 MARL 算法的算法框架，并通过一种新的时序奖励重分配方案，利用 LeGEM 建立代理的情节性记忆以提高多智能体协调。结果表明，该算法显着提升了多智能体协调并提高了样本效率。

May, 2022

通过奖励归因分解进行多智能体协作

本文提出了一种名为 Collaborative Q-learning (CollaQ) 的多智能体协作强化学习算法，它利用 Multi-Agent Reward Attribution (MARA) loss 进行训练并在 StarCraft 多智能体挑战中表现出色，尤其支持 ad hoc 团队玩法。该算法能将每个智能体的 Q 函数分解为自表达项和交互项，并在无需重新训练 / 微调的情况下，显著提高 SoTA 超过 30%。

Oct, 2020