最佳和公平的激励政策评估与学习

Sep, 2023

最佳和公平的激励政策评估与学习

Optimal and Fair Encouragement Policy Evaluation and Learning

Angela Zhou

TL;DR连同统计可减少方差的估计和鲁棒估计在内，研究了在可能违反正性的情况下的最优治疗规则的因果识别和估计，以及如公平性等约束通过约束优化处理，并提出了用于获得方差敏感性遗憾界的多参数政策类的两阶段算法。

Abstract

In consequential domains, it is often impossible to compel individuals to take treatment, so that optimal policy rules are merely suggestions in the presence of human non-adherence to treatment recommendations. In these same domains, there may be heterogeneity both in who responds in taking-up treatment, and heterogeneity in treatment efficacy. While optimal

optimal treatment rules fairness considerations causal identification statistical variance-reduced estimation constrained optimization

发现论文，激发创造

利用观测数据进行政策学习

本文提出了一种新的方法来优化二分类或连续处理的细微变化，该方法可以利用观测数据，其中因果效应使用各种策略（包括可观察的选择和仪器变量）进行识别，并建立了一种针对选择谁进行治疗的算法，并确定了其产生的政策渐近效用后悔的强有力保证。

Feb, 2017

务实公平：制定具有结果差异控制的政策

本文提出了一个因果框架来设计满足公平性约束条件的最优策略，并提出了两种不同的公平性约束条件：既有限制中断（moderation breaking）约束，又有等效益（equal benefit）约束，说明了如何在半合成模型上实现这些约束的实用方法。

Jan, 2023

学习最优公平策略

通过因果推断和约束优化方法学习公平政策，解决敏感情境下数据分析中存在的多个潜在偏见，避免自动决策程序和学习算法继续存在不公平现象。

Sep, 2018

公平且健壮的异质性处理效应评估用于政策学习

本研究提出了一种简单且通用的非参数估计框架，用于在公平性约束下估计异质性处理效应，该方法在标准正则条件下展现出双重鲁棒性质，通过评估方法，我们确定了公平和最大福利之间的权衡，并用实际案例展示了我们的方法。

Jun, 2023

从观测数据中学习多阶段选择问题的公平策略

通过解决难以计算的无限机会约束程序，提出了一种多阶段框架，用于从观测数据中学习公平策略，该问题与公司招聘、贷款批准或保释决策等高风险领域中的选择相关，我们专注于可解释的线性选择规则，并通过解决混合二次锥优化问题获得了组合评价的解决方案，与现有的选择策略相比，在精确度方面提高了 11.6%，在不公平度方面减少了 38%。

Dec, 2023

公平徵询的算法框架

介绍了一种框架，在该框架中，可以将成对的个体标识为需要（大约）相等的待遇。我们引入了一种算法，可以在满足预设的公平性约束条件下学习最准确的模型，并证明了其准确性和公平性的泛化界限。该算法还可以将传统的统计公平概念与 elicited constraints 相结合，从而通过前者 “纠正” 或修改后者。我们使用在 COMPAS 犯罪再犯率数据集上 elicited 的 human-subject 公平性约束条件的行为学研究报告了初步结果。

May, 2019

学习何时治疗的策略

开发了一种基于 “优势双倍稳健” 估计器的动态治疗规则学习方法，适用于顺序无关性假设，证明了福利遗憾界，展示了在几种不同背景下有希望的实证表现。该方法适用于政策优化，不需要任何结构性假设。

May, 2019

降维多目标策略学习与优化

通过降维回归模型，我们提出了一种数据驱动的方法，以多目标的最优政策学习为背景，从观测结果中学习出真实结果的低维度表示。我们的方法在政策评估和优化中降低了估计误差，通过降低噪音社会结果的方差，提高了算法分配的性能。

Apr, 2024

无正性政策学习的观测数据

利用观察数据进行政策学习在各个领域中至关重要，本研究介绍一种新型的无正性假设的（随机）政策学习框架，用于解决实际场景中正性假设不可行的挑战，该框架利用增量倾向得分策略来调整倾向得分值，而不是将固定值分配给治疗方案，通过半参数效率理论建立了这些增量倾向得分策略的特征和识别条件，并提出了能够实现快速收敛速度的高效估计器，即使与先进的机器学习算法结合使用，本文通过全面的数值实验验证了所提出的框架在有限样本情况下的性能，确保从观察数据中识别因果效应的可靠性和稳健性。

Oct, 2023

从公平决策到社会平等

本文研究了在智能决策系统中公平性的一个重大问题，即如何在决策过程中考虑人口的长期影响。我们提出了一个简单却深入的模型，它将考虑到人员选择以及政策对群体资格的影响力，重点研究肯定行动的形式主义。我们的研究明确了这个制约政策对于旨在实现平衡的肯定行动而言的成果，它是对智能决策系统中不断变化着的影响因素与公平性之间关系的重要探究。

Dec, 2018