随机斯塔克伯格安全博弈的无模型强化学习
本研究提出了一种将 Stackelberg 平衡搜索实现为多智能体强化学习问题的通用框架,并借助多任务和元强化学习技术实现了一种使用情境策略的方法,在标准和新颖的基准领域上进行了实验,并显示出较以前的方法大大提高的样本效率。同时,我们探讨了超出我们框架边界的算法设计所带来的影响。
Oct, 2022
研究了强化学习在具有领导者 - 追随者结构的情境马尔可夫博弈中学习 Quantal Stackelberg Equilibrium 的问题,提出了基于函数逼近的在线和离线问题的高效算法,利用最大似然估计来学习追随者的量化响应模型,并结合模型自由或基于模型的强化学习解决领导者的决策问题,同时利用不确定性来实现对乐观和悲观算法的估计,并在线性和短视场景下具备计算效率。
Jul, 2023
研究了带有领导者和追随者的多人普遍和马尔可夫博弈,关注追随者为短视的情况,在在线和离线设置下开发了一些优化和悲观变种的最小二乘值迭代的强化学习算法以求得 Stackelberg-Nash 均衡 (SNE)。它们可在大状态空间的函数逼近工具中简单应用,并在具有线性函数逼近的情况下分别在在线和离线设置下证明了亚线性遗憾和亚最优性,为解决追随者为短视的普遍和马尔可夫博弈的 SNE 建立了第一个可以被证明高效的强化学习算法。
Dec, 2021
本文提出了一种新的框架,将基于模型的强化学习(MBRL)视为博弈,通过构建领导者与跟随者之间的 Stackelberg 博弈来简化算法设计,并设计了两种自然算法家族,旨在促进样本效率。
Apr, 2020
本文研究了基于分布鲁棒优化的 Stackelberg 游戏模型,特别是在不确定下属效用模型的情况下,寻找最优策略以保护某些资产。我们的研究表明,在广泛的不确定模型下,分布鲁棒 Stackelberg 均衡始终存在。当存在无限个下属效用函数且不确定性由支持有限名义分布周围的 Wasserstein 球表示时,我们提出了一种基于混合整数规划的增量算法来计算最优的分布鲁棒策略。实验结果显示,我们的方法可扩展到中等规模的 Stackelberg 游戏,从而验证了算法的可行性。
Sep, 2022
在嘈杂的赌徒反馈环境中,理论研究了 Stackelberg 均衡的样本有效学习,识别了 Stackelberg 均衡真实值与使用有限噪声样本估计版本之间的基本差距,并建立了与其相匹配的下限。
Feb, 2021
在广义随机博弈中,引入了 Pareto 最优概念作为可替代的平衡点,提出了基于最优反应的随机博弈的政策改进定理,并提出了一种迭代算法来确定 Pareto 最优策略,证明了该方法的单调改进性和收敛性,以及在特殊情况下收敛到平衡点的性质。
May, 2024
通过非耦合学习过程,本文提出一个新的学习规则,能够仅仅依靠每个玩家对其他玩家行为的观察,推动玩家向局部 Stackelberg 均衡演化,本规则对人工智能合作和多智能体强化学习具有潜在应用。
Feb, 2023
该论文提出了一种基于 Stackelberg equilibrium 的、具有异步行动协调的 N 级政策模型,通过共享条件超网络,使智能体可以学习不同的策略而不导致学习成本、存储成本以及扩展性的增加。实验证明,该模型在重复博弈场景中可以成功收敛到 Stackelberg equilibrium,对于合作任务和混合任务的完成也表现非常出色。
Apr, 2023