Jun, 2024

学习控制未知强单调博弈

TL;DR我们提出了一种简单的算法,通过在线调整受控系数来学习将博弈的纳什均衡点转移到符合线性约束,而不需要知道奖励函数或行动集,从而提供具有概率 1 保证的收敛性以满足目标线性约束的纳什均衡集合,并为该算法提供了均方收敛速度为 O (t^{-1/4}) 的界限。我们演示了该算法在全局二次代价优化和资源分配博弈中实现负载平衡的应用场景的模拟结果。