基于侧信息的斯塔克伯格博弈中的遗憾最小化
研究使用无遗憾算法在正态形式重复的N人博弈中,如何让人类玩家获得最大化效用,引入Stackelberg均衡和相关Stackelberg均衡的概念,证明玩家能够在每个回合至少保证相关Stackelberg期望值的效用。
Feb, 2022
本文研究了基于分布鲁棒优化的Stackelberg游戏模型,特别是在不确定下属效用模型的情况下,寻找最优策略以保护某些资产。我们的研究表明,在广泛的不确定模型下,分布鲁棒Stackelberg均衡始终存在。当存在无限个下属效用函数且不确定性由支持有限名义分布周围的Wasserstein球表示时,我们提出了一种基于混合整数规划的增量算法来计算最优的分布鲁棒策略。实验结果显示,我们的方法可扩展到中等规模的Stackelberg游戏,从而验证了算法的可行性。
Sep, 2022
研究了两个智能体在重复对局中报酬和悔恨之间的权衡,提出了一种广义均衡概念,讨论了不同对手情况下的最优战略和可行方案,探究了利用这种广义均衡学习最优策略的方法。
May, 2023
本文介绍了一种扩展标准 Stackelberg Games 框架的模型:Calibrated Stackelberg Games(CSGs),同时引入了更强的校准概念——自适应校准,给出了一般性方法来获得自适应校准算法,并将其应用于诸如 Stackelberg 安全博弈和战略分类等领域中。
Jun, 2023
本研究提出了一种基于 Stackelberg 的学习算法,用于批量强化学习中的政策学习问题,通过采用领导者-追随者结构的博弈论视角,该算法具有收敛性保证和对不同iable Stackelberg均衡的收敛性保证,实验证明其在批处理强化学习基准和真实世界数据集上表现良好。
Sep, 2023
探讨了两个学习代理(如推荐系统或聊天机器人)相互交流并独立学习的情况下,每个代理的目标和效用如何受到影响,并提出了一种宽容于小学习误差的放松后的后悔基准,以及相应的学习算法,实现了接近最优水平的后悔率。
Feb, 2024
我们研究了分布式和策略性在线学习问题,通过对不完全信息和附加信息两种不同情境进行研究,发现追随者在有限信息情境中按照局部最优策略响应领导者的行动,然而在附加信息情境中,追随者可以通过策略性行动操控领导者的奖励信号,以使得领导者的策略收敛到对自己更有利的均衡状态。基于这些洞察,我们针对这两种情境研究了分布式在线学习,主要贡献是提出了最后迭代收敛和样本复杂度方面的结果。尤其值得注意的是,我们设计了一种新的操控策略,用于处理附加信息情境,并证明它相对于最优应对策略具有内在优势。我们的理论结果也得到了实证结果的支持。
May, 2024
本研究解决了在无悔追随者约束下,两人Stackelberg博弈中玩家能否达到Stackelberg均衡的问题。我们提出了当追随者策略为奖励平均或变换奖励平均时,两位玩家总能实现均衡,并进一步证明无悔约束下的均衡与追随者效用差异的严格上限。这表明在常和两人Stackelberg博弈中,保持无悔行动序列可以维持总最优效用的边界。
Aug, 2024