相对过度概括的课程学习

Dec, 2022

Curriculum Learning for Relative Overgeneralization

Lin Shi, Bei Peng

TL;DR本文提出了一种称为课程学习的方法来更好地克服相对泛化问题，在 QMIX 中应用该方法可以克服严重的 RO 问题，并在各种合作多智能体任务中取得了最先进的结果。

Abstract

In multi-agent reinforcement learning (MARL), many popular methods, such as VDN and QMIX, are susceptible to a critical multi-agent pathology known as relative overgeneralization (RO), which arises when the optim

multi-agent reinforcement learning relative overgeneralization qplex wqmix curriculum learning

发现论文，激发创造

多模态环境不确定性下使用课程学习提高多智能体强健性

该研究是第一个对多模态环境不确定性的多智能体强化学习问题进行广义建模的工作，并提出了基于课程学习技术的多模态不确定性的鲁棒训练方法，通过在合作和竞争的多智能体强化学习环境下的广泛实验结果表明我们的方法达到了最先进的鲁棒性水平。

Oct, 2023

合作任务的乐观多智体策略梯度

基于乐观主义更新和激活函数的优化，解决了多智能体学习中的相对过度概括问题，并在复杂任务中表现出优异性能。

Nov, 2023

谈判推理：如何可证地解决相对过度概括问题

本文提出了一种新的协商推理框架和实例化算法 Stein 变分协商推理 (SVNR)，其使用 Stein 变分梯度下降来导出一种协商政策，以便在最大熵策略迭代下在多智能体强化学习中避免 RO 。对许多 RO 挑战环境的数值实验证明了 SVNR 在解决 RO 中的卓越性和效率。

Jun, 2023

风险感知的分布式多智能体强化学习

研究了在未知环境下的决策问题，使用分布式多智能体强化学习和条件风险价值的方法进行决策，并通过模拟评估验证了该方法。

Apr, 2023

使用子博弈课程学习加速多智能体零和博弈中的强化学习

本文介绍了一个基于子博弈课程学习框架（Subgame Automatic Curriculum Learning，SACL）的新算法，通过重置智能体到先前访问过的状态来加速学习，使用 SACL 可以生成比基线更强的策略，并且在 hide-and-seek quadrant 环境中使用了比 MAPPO 自我对抗训练只多一半的样本，得出了四个新的发展阶段。

Oct, 2023

CLUTR: 通过无监督任务表示学习进行课程学习

介绍了 CLUTR：一种新型的无监督课程学习算法，通过将任务表示和课程学习分解成两个阶段的优化，成功地克服了任务分布不稳定性的问题，提高了稳定性，并在 CarRacing 和 Navigation 等环境中实现了具有挑战性的零 - shot 推广。

Oct, 2022

面向多智体强化学习的熟练人口课程

该论文介绍了一种名为 SPC 的新型自动课程学习框架，该框架将课程学习应用于多智能体协调中，通过赋予学生团体不变的通信和分层技能，在不同数量的代理任务中学习合作和行为技能，并在学生策略的条件下将老师建模为一个情境式赌博机，提高了 MARL 环境下的性能、可伸缩性和样本效率。

Feb, 2023

具有好奇心驱动探索的情节式多智能体强化学习

本篇论文提出了 Episodic Multi-agent 强化学习方法，并把个体 Q 值预测误差作为内部奖励，使用情节式记忆从经验中提升策略训练，从而实现多代理协作性问题的有效探索和高效学习。在 StarCraft II 微型管理基准测试中，我们的方法显著优于现有情况下的 MARL 基线。

Nov, 2021

深度强化学习中具有任务关联的近端课程

基于近发展区概念，我们提出了一种名为 ProCuRL-Target 的新型课程计划，它可以在复杂任务的目标分布上平衡选择任务的需要，通过利用任务之间的相关性推动代理的学习，从而加速深度强化学习代理的训练过程。

May, 2024

自适应多智能体强化学习

本文介绍了自适应多智能体强化学习 (Self-paced MARL)，它可以根据任务的难度自动优化智能体数量，实验结果显示该方法在智能体数量对任务难度有足够影响时可以提高任务表现。

May, 2022