Jun, 2021

学习针对多个被有限理性代理人的一般和游戏

TL;DR本文研究在多智能体博弈中,如何利用强化学习训练一个负责主导的智能体,并提出了能够在多项式时间内识别最坏情况响应的无懊悔动态方法,以提高该主导者策略的鲁棒性,且该方法可扩展为考虑有限理性的智能体。其应用之一为自动机制设计,本文实验结果展示了该方法学习出了在矩阵游戏和复杂时空游戏中的鲁棒机制。