May, 2024

游戏中的突变偏好学习

TL;DR我们提出了基于进化博弈理论考虑的两种多智能体强化学习算法的变体。 一个变体的有意简化使我们能够证明它与一类常微分方程系统的复制子 - 变异体动力学的关系,从而通过它的常微分方程对应项在各种环境中展示了该算法的收敛条件。相较于更复杂的算法,另一个更复杂的变体允许与 Q 学习算法进行比较。我们在一系列环境中通过实验将这两个变体与 WoLF-PHC 和频率调整的 Q 学习进行比较,展示了我们的变体在维度增加的情况下保持收敛性的实例与更复杂算法的对比。解析结果的可用性相对于纯经验案例研究提供了一定的可转移性,展示了在处理收敛性和可靠的推广问题时,动力系统视角对多智能体强化学习的普适性。