非线性福利感知战略学习

May, 2024

Non-linear Welfare-Aware Strategic Learning

Tian Xie, Xueru Zhang

TL;DR本文研究在存在战略个体行为的情况下的算法决策，其中使用机器学习模型作出对人类个体的决策，而后者可以战略性地调整自己的行为以改进其未来的数据。研究重点在于非线性设置，其中个体只能通过决策策略的本地信息来响应决策策略。同时考虑最大化决策者福利（模型预测准确性）、社会福利（战略行为导致的个体改进）和个体福利（机器学习对个体的低估程度）的目标。理论结果表明，仅仅最大化某些参与方的福利必然会减少其他方的福利，因此我们认为在非线性设置中平衡各方福利是必要的，并提出了一种适用于一般战略学习的不可缩减优化算法。通过对合成数据和真实数据的实验证实了所提算法。

Abstract

This paper studies algorithmic decision-making in the presence of strategic individual behaviors, where an ml model is used to make decisions about human agents and the latter can adapt their behavior strategical

algorithmic decision-making strategic behaviors ml model welfare objectives strategic learning

发现论文，激发创造

多目标强化学习中的福利与公正

本研究探讨了如何在多个目标之间实现公平的多目标强化学习，其中一个代理必须学习一种同时在矢量价值回报的多个维度上获得高回报的策略。我们采用期望福利最大化方法，通过某些非线性公平福利函数对长期累积回报的矢量进行建模。我们提供了 Q-learning 的新颖自适应方法，以学习为非线性福利函数进行优化。我们的算法可以被证明收敛，并且实验表明与线性标量化、最佳线性标量化混合或固定行动选择技术相比，在 Nash 社会福利目标方面，我们的方法表现出更好的效果。

Nov, 2022

因果策略线性回归

本文提出了在实现线性设置中优化三种不同决策者目标的决策规则的有效算法，包括准确预测智能体事后结果 (预测风险最小化)，激励智能体改进这些结果 (智能体结果最大化)，以及估计真实基础模型的系数 (参数估计)。其中的算法绕过了 Miller 等人的一个困难结果，允许决策者测试一系列决策规则并观察智能体的响应，从而通过决策规则实现因果干预。

Feb, 2020

来自显式偏好的战略分类

研究在线线性分类问题，应对操纵特征的策略代理的对抗性选择和他们操纵向量的揭示偏好，提供一个计算有效的学习算法，获得减小的 Stackelberg 后悔以近似于最佳分类器。

Oct, 2017

具有非线性动力学的多智能体强化学习算法

使用加权策略学习器（Weighted Policy Learner）算法，基于本地奖励的反馈，实现了多智能体强化学习（MARL）算法在二人二选手博弈中寻找 Nash Equilibrium 的能力。与之前的算法相比，WPL 不需要观察其他智能体动作和奖励，也不需要预先了解博弈本质和 NE 解，收敛表现优于现有的算法，并且在 100 个智能体交互中并行收敛。通过对 WPL 的动力学分析，可以更好地理解该算法的行为，分析 WPL 的收敛性比较困难，需要数值模拟求解动力学微分方程来验证其收敛性。

Jan, 2014

高社会福利纳什均衡的规范导向学习

本文提出了一种用于训练多智能体系统中的纳什均衡的强化学习框架，该框架利用高级规定来编码目标，并优先考虑多智能体系统的社会福利，经验评估表明，相对于现有方法，本算法计算的纳什均衡策略具有更高的社会福利。

Jun, 2022

战略分类

机器学习中的好斗现象及其解决方案的研究，通过将分类问题建模为一种游戏的方式，提出了一种近乎最优的、能够抵抗 “好斗” 现象的分类器设计算法，尤其对于一类自然代价函数而言，该算法在计算上也是高效的。

Jun, 2015

战略行为下的最优决策

研究表明，通过使用数据驱动的预测模型作出的决策越来越多，对于这些决策的影响，对于个人和社会，决策者透明公开的政策也就越来越重要。我们的研究目标是找到在具有策略性投资的情况下，对于实用性最优的决策策略，在我们的研究中，我们首先表征了个体策略性努力投资如何导致特征分布的变化，然后提出了一种适用于多种情况的最优决策策略的搜索方法，并根据合成和现实数据的实验结果，说明了我们算法找到的决策策略比没有考虑策略性的决策策略的实用性要高。

May, 2019

在无法预见结果下的模仿战略行为中学习

利用机器学习系统进行个体决策的智能行为研究，提出了基于 Stackelberg 博弈的模型，探讨了决策者对个体行为的预期能力对其目标函数和个体最佳反应的影响，并通过调整偏好，同时抑制操纵、鼓励改进和促进公平。

May, 2024

战略操纵的差异影响

本文研究算法决策，分析了在社会不平等的情况下，一方面面临更高的成本的候选群体可能会被错误地排除，而另一方面面临更低成本的候选群体可能会被错误地接受。本文还探讨了给予补贴的干预效果，发现某些情况下给予补贴只会提高算法决策者的效用，但实际上会损害所有候选群体的利益，包括补贴接收者。

Aug, 2018

多学习者环境中的战略使用

现实世界的系统中，用户在一组服务中进行选择，通过在线学习算法，这些服务可以自我优化并最大化一些回报，而用户可以策略性地选择服务以追求他们自己的回报函数，我们分析了一个策略性用户在多个可用的服务中进行选择的情境，并研究了损失函数在这种情境下的收敛行为。

Jan, 2024