随机斯塔克贝格博弈中的帕累托最优策略的政策迭代
本论文提出了一种新的方法来近似求解弱Stackelberg均衡,方法基于Follower策略空间的引导式Monte Carlo树搜索和Leader的行为策略树建立,并在用于三个不同拓扑结构的博弈测试中取得了优异的效果,较传统方法更具实用性和时间可扩展性。
Sep, 2019
在嘈杂的赌徒反馈环境中,理论研究了 Stackelberg 均衡的样本有效学习,识别了 Stackelberg 均衡真实值与使用有限噪声样本估计版本之间的基本差距,并建立了与其相匹配的下限。
Feb, 2021
研究了带有领导者和追随者的多人普遍和马尔可夫博弈,关注追随者为短视的情况,在在线和离线设置下开发了一些优化和悲观变种的最小二乘值迭代的强化学习算法以求得Stackelberg-Nash均衡(SNE)。它们可在大状态空间的函数逼近工具中简单应用,并在具有线性函数逼近的情况下分别在在线和离线设置下证明了亚线性遗憾和亚最优性,为解决追随者为短视的普遍和马尔可夫博弈的SNE建立了第一个可以被证明高效的强化学习算法。
Dec, 2021
本文研究了基于分布鲁棒优化的Stackelberg游戏模型,特别是在不确定下属效用模型的情况下,寻找最优策略以保护某些资产。我们的研究表明,在广泛的不确定模型下,分布鲁棒Stackelberg均衡始终存在。当存在无限个下属效用函数且不确定性由支持有限名义分布周围的Wasserstein球表示时,我们提出了一种基于混合整数规划的增量算法来计算最优的分布鲁棒策略。实验结果显示,我们的方法可扩展到中等规模的Stackelberg游戏,从而验证了算法的可行性。
Sep, 2022
本文提出了一种基于OMWU方法的单环路政策优化算法,并在二人零和马尔可夫博弈中,通过控制正则化的程度,实现了有限时间的最后一次线性收敛到达量子响应均衡点,并在全信息离散设置中实现了收敛结果。
Oct, 2022
我们研究了多人广义和Markov游戏中计算相关均衡的政策优化算法,以往结果在收敛速率上达到了$O(T^{-1/2})$的相关均衡和$O(T^{-3/4})$的粗糙相关均衡的加速收敛速率,本文提出了一种通过组合平滑值更新和乐观正则化领导者算法与对数障碍正则器的两个主要因素构建的解耦政策优化算法,达到了计算相关均衡的几乎最优$ ilde{O}(T^{-1})$的收敛速率。
Jan, 2024
我们研究了分布式和策略性在线学习问题,通过对不完全信息和附加信息两种不同情境进行研究,发现追随者在有限信息情境中按照局部最优策略响应领导者的行动,然而在附加信息情境中,追随者可以通过策略性行动操控领导者的奖励信号,以使得领导者的策略收敛到对自己更有利的均衡状态。基于这些洞察,我们针对这两种情境研究了分布式在线学习,主要贡献是提出了最后迭代收敛和样本复杂度方面的结果。尤其值得注意的是,我们设计了一种新的操控策略,用于处理附加信息情境,并证明它相对于最优应对策略具有内在优势。我们的理论结果也得到了实证结果的支持。
May, 2024