状态化的战略回归

Jun, 2021

Stateful Strategic Regression

Keegan Harris, Hoda Heidari, Zhiwei Steven Wu

TL;DR对在线评估工具进行策略应对的研究表明，在考虑个体决策者和决策机构间多次周期策略互动的情况下，多轮互动使得决策机构更加有效地激励个体决策者朝期望的方向累积努力，并考虑延长时间框架和考虑决策累积的很多关键因素需要加以研究和解决。

Abstract

automated decision-making tools increasingly assess individuals to determine if they qualify for high-stakes opportunities. A recent line of research investigates how strategic agents may respond to such scoring

automated decision-making strategic agents stackelberg equilibrium multiple interactions longer time horizons

发现论文，激发创造

因果策略线性回归

本文提出了在实现线性设置中优化三种不同决策者目标的决策规则的有效算法，包括准确预测智能体事后结果 (预测风险最小化)，激励智能体改进这些结果 (智能体结果最大化)，以及估计真实基础模型的系数 (参数估计)。其中的算法绕过了 Miller 等人的一个困难结果，允许决策者测试一系列决策规则并观察智能体的响应，从而通过决策规则实现因果干预。

Feb, 2020

具有持续改进的智能体下的算法决策

该研究探讨了在人类战略行为下的算法决策问题，其中决策者通过算法为人类代理制定决策，而后者在了解算法信息的情况下可以通过战略性努力逐渐改善以得到有利的决策。通过构建动态模型，本文分析了持久改进的特性，并基于此构建了 Stackelberg 博弈模型来描述代理与决策者之间的相互作用。在分析了策略平衡的基础上，还研究了决策者如何设计最佳策略以激励代理人口中最大幅度的改进。此外，本文还扩展了模型以包括 1）代理人可能不诚实并操纵算法做出有利但错误的决策；2）诚实努力是容易忘记的并不能保证持久改进。在扩展模型中，我们进一步研究了代理人在何种条件下更倾向于诚实努力而不是不诚实行为，以及容易忘记努力的影响。

May, 2024

随机斯塔克伯格安全博弈的无模型强化学习

本文提出了一种基于预期 Sarsa 的强化学习算法，使用粒子筛选器估计共同代理的信念更新，并以安全游戏示例说明了所学习的策略。

May, 2020

战略行为下的最优决策

研究表明，通过使用数据驱动的预测模型作出的决策越来越多，对于这些决策的影响，对于个人和社会，决策者透明公开的政策也就越来越重要。我们的研究目标是找到在具有策略性投资的情况下，对于实用性最优的决策策略，在我们的研究中，我们首先表征了个体策略性努力投资如何导致特征分布的变化，然后提出了一种适用于多种情况的最优决策策略的搜索方法，并根据合成和现实数据的实验结果，说明了我们算法找到的决策策略比没有考虑策略性的决策策略的实用性要高。

May, 2019

学习激励信息获取：适当计分规则与委托代理模型相遇

研究了由 Stackelberg 博弈建模的信息获取问题，设计了样本有效的算法来优化评分规则，并保证了代理的行为得到激励，且无关环境状态数的遗憾值上界为 T 的两到三次方根。

Mar, 2023

战略操纵的差异影响

本文研究算法决策，分析了在社会不平等的情况下，一方面面临更高的成本的候选群体可能会被错误地排除，而另一方面面临更低成本的候选群体可能会被错误地接受。本文还探讨了给予补贴的干预效果，发现某些情况下给予补贴只会提高算法决策者的效用，但实际上会损害所有候选群体的利益，包括补贴接收者。

Aug, 2018

非线性福利感知战略学习

本文研究在存在战略个体行为的情况下的算法决策，其中使用机器学习模型作出对人类个体的决策，而后者可以战略性地调整自己的行为以改进其未来的数据。研究重点在于非线性设置，其中个体只能通过决策策略的本地信息来响应决策策略。同时考虑最大化决策者福利（模型预测准确性）、社会福利（战略行为导致的个体改进）和个体福利（机器学习对个体的低估程度）的目标。理论结果表明，仅仅最大化某些参与方的福利必然会减少其他方的福利，因此我们认为在非线性设置中平衡各方福利是必要的，并提出了一种适用于一般战略学习的不可缩减优化算法。通过对合成数据和真实数据的实验证实了所提算法。

May, 2024

来自显式偏好的战略分类

研究在线线性分类问题，应对操纵特征的策略代理的对抗性选择和他们操纵向量的揭示偏好，提供一个计算有效的学习算法，获得减小的 Stackelberg 后悔以近似于最佳分类器。

Oct, 2017

众多战略代理系统中的分散式学习

我们提出了一种计算多智能体系统中闭环最优策略的方法，并证明了在拥有无限个智能体的系统中成功收敛到最优行为，而且我们的方法具有完全分散的特性，能够在经济和控制理论中的实际应用中收敛到纳什均衡策略。

Mar, 2018

多智能体强化学习中通过时空顺序决策诱导斯塔克贝格均衡

该论文提出了一种基于 Stackelberg equilibrium 的、具有异步行动协调的 N 级政策模型，通过共享条件超网络，使智能体可以学习不同的策略而不导致学习成本、存储成本以及扩展性的增加。实验证明，该模型在重复博弈场景中可以成功收敛到 Stackelberg equilibrium，对于合作任务和混合任务的完成也表现非常出色。

Apr, 2023