Jan, 2024

多智能体强化学习的策略距离测量

TL;DR多样性在提高多智能体强化学习 (MARL) 性能方面起着关键作用,本文提出了一种通用的量化智能体政策差异的工具,多智能体政策距离 (MAPD),并通过在线部署设计了一个多智能体动态参数共享 (MADPS) 算法来应用该工具。实验证明,我们的方法在衡量智能体政策差异和特定行为倾向方面是有效的,并且相比其他参数共享方法,MADPS 表现出更优越的性能。