AAAIDec, 2023

竞争网络中多智能体学习的稳定性:延迟混沌的发生

TL;DR多智能体学习在竞争网络游戏中的行为通常在零和游戏的背景下进行研究,其中收敛保证可能会得到。然而,在这个类别之外,学习的行为被知道展现出复杂的行为且收敛不能始终保证。尽管如此,为了完整地了解多智能体学习在竞争环境中的行为,必须放弃零和的假设。因此,我们以此为动机研究 Q-Learning 动力学,这是一种在多智能体学习中探索和利用的流行模型,在竞争网络游戏中的应用。我们确定竞争程度、探索率和网络连接性对 Q-Learning 的收敛性的影响。为了研究通用的竞争游戏,我们使用代理支付之间的相关性对网络游戏进行参数化,并研究从这些参数选择的所有游戏的 Q-Learning 动力学的平均行为。这种统计方法确定了参数选择,使得 Q-Learning 动力学收敛到一个稳定的固定点。与以前的研究不同,我们发现 Q-Learning 的稳定性明显仅依赖于网络连通性而不是智能体的总数量。我们的实验验证了这些发现,并显示在某些网络结构下,智能体的总数量可以增加而不增加不稳定或混乱行为的可能性。