Jun, 2021
多智能体竞赛中的探索-利用:有界理性下的收敛
Exploration-Exploitation in Multi-Agent Competition: Convergence with
Bounded Rationality
TL;DR通过研究充分考虑游戏奖励和探索成本平衡的原型学习模型Q-learning,我们证明在使用积极探索率的具有异质性学习代理的权重零和多元矩阵游戏中,Q-learning总是收敛于唯一的量刑-反应均衡(QRE),这是有界理性下游戏的标准解决方案概念,并展示了 Q-learning 在竞争环境中的快速收敛性,而无需任何参数微调,在竞争多代理环境中的均衡选择问题提供了算法所需的保证。