相对过度概括的课程学习
该研究是第一个对多模态环境不确定性的多智能体强化学习问题进行广义建模的工作,并提出了基于课程学习技术的多模态不确定性的鲁棒训练方法,通过在合作和竞争的多智能体强化学习环境下的广泛实验结果表明我们的方法达到了最先进的鲁棒性水平。
Oct, 2023
本文提出了一种新的协商推理框架和实例化算法 Stein 变分协商推理 (SVNR),其使用 Stein 变分梯度下降来导出一种协商政策,以便在最大熵策略迭代下在多智能体强化学习中避免 RO 。对许多 RO 挑战环境的数值实验证明了 SVNR 在解决 RO 中的卓越性和效率。
Jun, 2023
本文介绍了一个基于子博弈课程学习框架(Subgame Automatic Curriculum Learning,SACL)的新算法,通过重置智能体到先前访问过的状态来加速学习,使用 SACL 可以生成比基线更强的策略,并且在 hide-and-seek quadrant 环境中使用了比 MAPPO 自我对抗训练只多一半的样本,得出了四个新的发展阶段。
Oct, 2023
介绍了 CLUTR:一种新型的无监督课程学习算法,通过将任务表示和课程学习分解成两个阶段的优化,成功地克服了任务分布不稳定性的问题,提高了稳定性,并在 CarRacing 和 Navigation 等环境中实现了具有挑战性的零 - shot 推广。
Oct, 2022
该论文介绍了一种名为 SPC 的新型自动课程学习框架,该框架将课程学习应用于多智能体协调中,通过赋予学生团体不变的通信和分层技能,在不同数量的代理任务中学习合作和行为技能,并在学生策略的条件下将老师建模为一个情境式赌博机,提高了 MARL 环境下的性能、可伸缩性和样本效率。
Feb, 2023
本篇论文提出了 Episodic Multi-agent 强化学习方法,并把个体 Q 值预测误差作为内部奖励,使用情节式记忆从经验中提升策略训练,从而实现多代理协作性问题的有效探索和高效学习。在 StarCraft II 微型管理基准测试中,我们的方法显著优于现有情况下的 MARL 基线。
Nov, 2021
基于近发展区概念,我们提出了一种名为 ProCuRL-Target 的新型课程计划,它可以在复杂任务的目标分布上平衡选择任务的需要,通过利用任务之间的相关性推动代理的学习,从而加速深度强化学习代理的训练过程。
May, 2024
本文介绍了自适应多智能体强化学习 (Self-paced MARL),它可以根据任务的难度自动优化智能体数量,实验结果显示该方法在智能体数量对任务难度有足够影响时可以提高任务表现。
May, 2022