观察并学习：从明示偏好反馈中进行优化

Apr, 2015

观察并学习：从明示偏好反馈中进行优化

Watch and Learn: Optimizing from Revealed Preferences Feedback

Aaron Roth, Jonathan Ullman, Zhiwei Steven Wu

TL;DR本文提出通过揭示意向方法，解决了在 follower 效用函数未知的 Stackelberg 博弈中求解 leader 最优策略的问题，并在包括利润最大化和非原子性拥塞博弈最优通行费率问题在内的广泛问题上表现良好。

Abstract

A stackelberg game is played between a leader and a follower. The leader first chooses an action, then the follower plays his best response. The goal of the leader is to pick the action that will maximize his payoff given the follower's best response. In this paper we present an approa

stackelberg game utility function profit maximization revealed preference non-convex optimization

发现论文，激发创造

基于侧信息的斯塔克伯格博弈中的遗憾最小化

Stackelberg 博弈是算法博弈论的一个重要应用，通过引入附加信息和在线设置，可以实现无遗憾学习。

Feb, 2024

学习操纵承诺优化器

通过交互式查询领导者的最优承诺行为，研究表明，在缺乏信息优势的情况下，追随者可以在多项式时间内学习最优操纵方式。

Feb, 2023

随机斯塔克伯格安全博弈的无模型强化学习

本文提出了一种基于预期 Sarsa 的强化学习算法，使用粒子筛选器估计共同代理的信念更新，并以安全游戏示例说明了所学习的策略。

May, 2020

有限顺序博弈的斯塔克贝格均衡计算

本文研究了在有限序贯博弈中 Stackelberg 均衡解概念，提供了几类序贯博弈的新的精确算法、近似算法和难度结果。

Jul, 2015

计算最优分布式鲁棒策略

本文研究了基于分布鲁棒优化的 Stackelberg 游戏模型，特别是在不确定下属效用模型的情况下，寻找最优策略以保护某些资产。我们的研究表明，在广泛的不确定模型下，分布鲁棒 Stackelberg 均衡始终存在。当存在无限个下属效用函数且不确定性由支持有限名义分布周围的 Wasserstein 球表示时，我们提出了一种基于混合整数规划的增量算法来计算最优的分布鲁棒策略。实验结果显示，我们的方法可扩展到中等规模的 Stackelberg 游戏，从而验证了算法的可行性。

Sep, 2022

对抗无悔玩家

研究使用无遗憾算法在正态形式重复的 N 人博弈中，如何让人类玩家获得最大化效用，引入 Stackelberg 均衡和相关 Stackelberg 均衡的概念，证明玩家能够在每个回合至少保证相关 Stackelberg 期望值的效用。

Feb, 2022

广义和谐史塔克伯格博弈中的去中心化在线学习

我们研究了分布式和策略性在线学习问题，通过对不完全信息和附加信息两种不同情境进行研究，发现追随者在有限信息情境中按照局部最优策略响应领导者的行动，然而在附加信息情境中，追随者可以通过策略性行动操控领导者的奖励信号，以使得领导者的策略收敛到对自己更有利的均衡状态。基于这些洞察，我们针对这两种情境研究了分布式在线学习，主要贡献是提出了最后迭代收敛和样本复杂度方面的结果。尤其值得注意的是，我们设计了一种新的操控策略，用于处理附加信息情境，并证明它相对于最优应对策略具有内在优势。我们的理论结果也得到了实证结果的支持。

May, 2024

无耦合学习承诺微分斯塔克尔贝格均衡

通过非耦合学习过程，本文提出一个新的学习规则，能够仅仅依靠每个玩家对其他玩家行为的观察，推动玩家向局部 Stackelberg 均衡演化，本规则对人工智能合作和多智能体强化学习具有潜在应用。

Feb, 2023

强化学习在一般和马尔可夫博弈中可以发现贝叶斯纳什均衡吗？

研究了带有领导者和追随者的多人普遍和马尔可夫博弈，关注追随者为短视的情况，在在线和离线设置下开发了一些优化和悲观变种的最小二乘值迭代的强化学习算法以求得 Stackelberg-Nash 均衡 (SNE)。它们可在大状态空间的函数逼近工具中简单应用，并在具有线性函数逼近的情况下分别在在线和离线设置下证明了亚线性遗憾和亚最优性，为解决追随者为短视的普遍和马尔可夫博弈的 SNE 建立了第一个可以被证明高效的强化学习算法。

Dec, 2021

一般和博弈中的斯塔克伯格均衡的高效学习

在嘈杂的赌徒反馈环境中，理论研究了 Stackelberg 均衡的样本有效学习，识别了 Stackelberg 均衡真实值与使用有限噪声样本估计版本之间的基本差距，并建立了与其相匹配的下限。

Feb, 2021