有限顺序博弈的斯塔克贝格均衡计算
本文研究了扩展形式博弈中存在不确定性的Stackelberg均衡及其鲁棒性问题,分别引入了关于对手收益以及对手节点估值函数的不确定性条件,并提出了一种新的混合整数规划模型计算此类问题,证明可以在特定情况下准确可靠地计算出鲁棒Stackelberg均衡。
Nov, 2017
本论文提出了一种新的方法来近似求解弱Stackelberg均衡,方法基于Follower策略空间的引导式Monte Carlo树搜索和Leader的行为策略树建立,并在用于三个不同拓扑结构的博弈测试中取得了优异的效果,较传统方法更具实用性和时间可扩展性。
Sep, 2019
在嘈杂的赌徒反馈环境中,理论研究了 Stackelberg 均衡的样本有效学习,识别了 Stackelberg 均衡真实值与使用有限噪声样本估计版本之间的基本差距,并建立了与其相匹配的下限。
Feb, 2021
研究了带有领导者和追随者的多人普遍和马尔可夫博弈,关注追随者为短视的情况,在在线和离线设置下开发了一些优化和悲观变种的最小二乘值迭代的强化学习算法以求得Stackelberg-Nash均衡(SNE)。它们可在大状态空间的函数逼近工具中简单应用,并在具有线性函数逼近的情况下分别在在线和离线设置下证明了亚线性遗憾和亚最优性,为解决追随者为短视的普遍和马尔可夫博弈的SNE建立了第一个可以被证明高效的强化学习算法。
Dec, 2021
本文研究了基于分布鲁棒优化的Stackelberg游戏模型,特别是在不确定下属效用模型的情况下,寻找最优策略以保护某些资产。我们的研究表明,在广泛的不确定模型下,分布鲁棒Stackelberg均衡始终存在。当存在无限个下属效用函数且不确定性由支持有限名义分布周围的Wasserstein球表示时,我们提出了一种基于混合整数规划的增量算法来计算最优的分布鲁棒策略。实验结果显示,我们的方法可扩展到中等规模的Stackelberg游戏,从而验证了算法的可行性。
Sep, 2022
本研究提出了一种将 Stackelberg 平衡搜索实现为多智能体强化学习问题的通用框架,并借助多任务和元强化学习技术实现了一种使用情境策略的方法,在标准和新颖的基准领域上进行了实验,并显示出较以前的方法大大提高的样本效率。同时,我们探讨了超出我们框架边界的算法设计所带来的影响。
Oct, 2022
本研究解决了在无悔追随者约束下,两人Stackelberg博弈中玩家能否达到Stackelberg均衡的问题。我们提出了当追随者策略为奖励平均或变换奖励平均时,两位玩家总能实现均衡,并进一步证明无悔约束下的均衡与追随者效用差异的严格上限。这表明在常和两人Stackelberg博弈中,保持无悔行动序列可以维持总最优效用的边界。
Aug, 2024