神经算子可以进行动态斯塔克尔博格博弈
在嘈杂的赌徒反馈环境中,理论研究了 Stackelberg 均衡的样本有效学习,识别了 Stackelberg 均衡真实值与使用有限噪声样本估计版本之间的基本差距,并建立了与其相匹配的下限。
Feb, 2021
本文针对战略分类中的决策者和策略代理人的适应行为,通过引入双方适应行为的相对频率,证明了决策者较快地更新可以改变角色顺序,从而导致代理人领导,决策者跟随,并进一步展示了决策者在某些更新频率下可诱导收敛于任何角色顺序下的 Stackelberg 平衡。
Jun, 2021
研究了带有领导者和追随者的多人普遍和马尔可夫博弈,关注追随者为短视的情况,在在线和离线设置下开发了一些优化和悲观变种的最小二乘值迭代的强化学习算法以求得Stackelberg-Nash均衡(SNE)。它们可在大状态空间的函数逼近工具中简单应用,并在具有线性函数逼近的情况下分别在在线和离线设置下证明了亚线性遗憾和亚最优性,为解决追随者为短视的普遍和马尔可夫博弈的SNE建立了第一个可以被证明高效的强化学习算法。
Dec, 2021
研究使用无遗憾算法在正态形式重复的N人博弈中,如何让人类玩家获得最大化效用,引入Stackelberg均衡和相关Stackelberg均衡的概念,证明玩家能够在每个回合至少保证相关Stackelberg期望值的效用。
Feb, 2022
本研究提出了一种基于神经网络的函数近似方法,应用于广义和博弈的Stackelberg博弈情景,以学习Enforceable Payoff Frontier,从而实现对博弈策略的近似计算和评估。
Dec, 2022
本文介绍了一种扩展标准 Stackelberg Games 框架的模型:Calibrated Stackelberg Games(CSGs),同时引入了更强的校准概念——自适应校准,给出了一般性方法来获得自适应校准算法,并将其应用于诸如 Stackelberg 安全博弈和战略分类等领域中。
Jun, 2023
博弈论逆学习是从玩家的行动推断他们的目标的问题。我们在一场领导者与追随者的Stackelberg博弈中,将逆学习问题制定为每个玩家的行动是动力系统的轨迹。我们提出了一种主动的逆学习方法,用于领导者推断有限集候选中哪个假设描述追随者的目标函数。与现有方法不同,该方法主动地最大化了不同假设下追随者轨迹的差异,以加速领导者的推断。我们在一场时变轨迹重复博弈中演示了该方法。与均匀随机输入相比,该方法提供的领导者输入将追随者轨迹的条件下不同假设的概率收敛加速了数个数量级。
Aug, 2023