具有好奇心驱动探索的情节式多智能体强化学习
通过引入有效的情节记忆利用(EMU)来加速协同多智能体强化学习(MARL),为了减少学习时间并防止局部最优解,EMU 包括一个可训练的编码器 / 解码器结构和一种基于状态可取性的新奖励结构,理论支持和实证结果表明 EMU 相比传统的情节控制方法具有更好的性能。
Mar, 2024
本文提出了一种基于图通信的多智能体强化学习探索技术,通过邻近智能体的协作来估计状态 - 动作空间的不确定性,从而在不需要计数机制且可以应用于连续状态环境的前提下执行更有效的探索行为,可以实现最小的信息交换和完全分散的通信方式,并用理论和实验结果分别验证了其在离散状态和连续状态下的性能。
Apr, 2023
提出了一种名为 eQMARL 的新型框架,通过量子通道促进协作,并通过量子纠缠的分裂评论家消除本地观察共享,实验结果表明,eQMARL 相较于传统的分裂和完全中心化的经典和量子基线,能够在更短的时间内收敛到合作策略,且拥有更高的整体分数,与传统的分裂经典基线相比,eQMARL 只需要少于 25 倍的中心化参数。
May, 2024
基于量子供应链,并结合多智能体强化学习和量子优势,提出了一种能够实现多智能体合作、有效利用参数和快速收敛的量子 MARL 算法,并引入了投影值测量技术来进一步提高可伸缩性。
Aug, 2023
本文提出了一种名为 Collaborative Q-learning (CollaQ) 的多智能体协作强化学习算法,它利用 Multi-Agent Reward Attribution (MARA) loss 进行训练并在 StarCraft 多智能体挑战中表现出色,尤其支持 ad hoc 团队玩法。该算法能将每个智能体的 Q 函数分解为自表达项和交互项,并在无需重新训练 / 微调的情况下,显著提高 SoTA 超过 30%。
Oct, 2020
通过使用一种新的方法,称为 Imagine, Initialize, and Explore (IIE),该方法使用转换模型使多个智能体达到关键状态,并以此为起点进行探索,实现高效多智能体探索。在实际测试中,IIE 在复杂环境下表现出优异的性能,超过了其他多智能体探索基线,特别在稀疏奖励任务中有更好的表现,并产生比 CVAE-GAN 和扩散模型更有效的课程。
Feb, 2024
本论文提出了一种名为 MASER 的新方法,它通过从经验回放缓存生成子目标来解决稀疏奖励的协作多代理强化学习问题。数值结果表明,与其他最先进的 MARL 算法相比,MASER 在 StarCraft II 微管理基准测试中显著优于其他算法。
Jun, 2022
本文提出了一种新的多智能体强化学习方法,该方法将合作任务分解与学习奖励机器相结合,以编码子任务的结构。该方法有助于处理部分可观察环境中奖励的非马尔可夫性质,并提高了完成合作任务所需的学习策略的可解释性。每个子任务关联的奖励机器以分散的方式学习,然后用于指导每个智能体的行为,从而减少了合作多智能体问题的复杂性,更有效的学习。结果表明,我们的方法是未来 MARL 研究的一个有前景的方向,特别是在具有大状态空间和多个智能体的复杂环境中。
Mar, 2023