Feb, 2024

分散学习对斯塔克尔贝格博弈中玩家效用的影响

TL;DR探讨了两个学习代理(如推荐系统或聊天机器人)相互交流并独立学习的情况下,每个代理的目标和效用如何受到影响,并提出了一种宽容于小学习误差的放松后的后悔基准,以及相应的学习算法,实现了接近最优水平的后悔率。