学习操纵承诺优化器
本文提出通过揭示意向方法,解决了在 follower 效用函数未知的 Stackelberg 博弈中求解 leader 最优策略的问题,并在包括利润最大化和非原子性拥塞博弈最优通行费率问题在内的广泛问题上表现良好。
Apr, 2015
我们研究了分布式和策略性在线学习问题,通过对不完全信息和附加信息两种不同情境进行研究,发现追随者在有限信息情境中按照局部最优策略响应领导者的行动,然而在附加信息情境中,追随者可以通过策略性行动操控领导者的奖励信号,以使得领导者的策略收敛到对自己更有利的均衡状态。基于这些洞察,我们针对这两种情境研究了分布式在线学习,主要贡献是提出了最后迭代收敛和样本复杂度方面的结果。尤其值得注意的是,我们设计了一种新的操控策略,用于处理附加信息情境,并证明它相对于最优应对策略具有内在优势。我们的理论结果也得到了实证结果的支持。
May, 2024
本文研究了基于分布鲁棒优化的 Stackelberg 游戏模型,特别是在不确定下属效用模型的情况下,寻找最优策略以保护某些资产。我们的研究表明,在广泛的不确定模型下,分布鲁棒 Stackelberg 均衡始终存在。当存在无限个下属效用函数且不确定性由支持有限名义分布周围的 Wasserstein 球表示时,我们提出了一种基于混合整数规划的增量算法来计算最优的分布鲁棒策略。实验结果显示,我们的方法可扩展到中等规模的 Stackelberg 游戏,从而验证了算法的可行性。
Sep, 2022
本文探究了在不完整信息情况下的联合操纵问题及其计算性质,并提出了三种自然的操纵计算概念。我们提出的操纵问题在很多情况下都是计算上难以处理的,即使在很少信息缺失的情况下也是如此,这也使得本文的研究有着重要的实际应用意义。
Apr, 2016
本文研究算法决策,分析了在社会不平等的情况下,一方面面临更高的成本的候选群体可能会被错误地排除,而另一方面面临更低成本的候选群体可能会被错误地接受。本文还探讨了给予补贴的干预效果,发现某些情况下给予补贴只会提高算法决策者的效用,但实际上会损害所有候选群体的利益,包括补贴接收者。
Aug, 2018
研究使用无遗憾算法在正态形式重复的 N 人博弈中,如何让人类玩家获得最大化效用,引入 Stackelberg 均衡和相关 Stackelberg 均衡的概念,证明玩家能够在每个回合至少保证相关 Stackelberg 期望值的效用。
Feb, 2022