从观测数据中学习最优策略

Feb, 2018

Learning Optimal Policies from Observational Data

Onur Atan, William R. Zame, M van der Schaar

TL;DR本文通过控制实验方法和观察性数据建立了最优决策的理论模型，并利用域对抗神经网络的方法进行决策选择，从而在处理缺失反事实和选择偏差方面取得了较好的效果。

Abstract

Choosing optimal (or at least better) policies is an important problem in domains from medicine to education to finance and many others. One approach to this problem is through controlled experiments/trials - but controlled experiments are expensive. Hence it is important to choose the

optimal policies controlled experiments observational data estimation errors domain adversarial neural networks

发现论文，激发创造

利用观测数据进行政策学习

本文提出了一种新的方法来优化二分类或连续处理的细微变化，该方法可以利用观测数据，其中因果效应使用各种策略（包括可观察的选择和仪器变量）进行识别，并建立了一种针对选择谁进行治疗的算法，并确定了其产生的政策渐近效用后悔的强有力保证。

Feb, 2017

从观测、偏见和随机数据学习界定反事实推断

本文介绍一种方法，通过数据整合和建立结构性因果模型，在不同条件下解决由选择偏差引起的局部统计问题，并针对数据集的部分可识别性问题提出了一种逼近计算方法。通过系统的实验验证和实例研究，证明了这种方法的可行性和准确性，并揭示了数据整合对于信息界的提高具有积极的作用。

Dec, 2022

分布式鲁棒批次情境式赌博机

本文提出了一种利用历史观测数据解决偏移环境的分布鲁棒性策略学习算法，该算法通过提出的策略评估方案和基于均匀收敛理论的性能保证实现对敌对干扰和未知协变量转移的稳健性，并在真实世界数据集中展示了该方法的应用。

Jun, 2020

无正性政策学习的观测数据

利用观察数据进行政策学习在各个领域中至关重要，本研究介绍一种新型的无正性假设的（随机）政策学习框架，用于解决实际场景中正性假设不可行的挑战，该框架利用增量倾向得分策略来调整倾向得分值，而不是将固定值分配给治疗方案，通过半参数效率理论建立了这些增量倾向得分策略的特征和识别条件，并提出了能够实现快速收敛速度的高效估计器，即使与先进的机器学习算法结合使用，本文通过全面的数值实验验证了所提出的框架在有限样本情况下的性能，确保从观察数据中识别因果效应的可靠性和稳健性。

Oct, 2023

混淆鲁棒政策改进

研究使用观察数据学习个性化决策策略时如何考虑可能的未观测混杂因素以及最小化候选策略的最坏估计后悔的方法和算法，以在保证安全和关注证据改进的前提下得到可靠的个性化治疗策略。

May, 2018

多动作场景中基于观测数据的最优策略学习：估计、风险偏好和潜在失败

该论文讨论了使用观察数据进行最优策略学习（OPL）的多行动（或多臂）设置下的数据驱动最优决策问题，分别从估计、风险偏好和潜在失败三个方面进行了讨论，并提出了关于线下最优策略学习估计器的识别假设和统计特性，以及决策风险分析和最优选择受决策者风险态度的影响，最后讨论了影响最优数据驱动决策的条件限制。

Mar, 2024

学习针对事实推断的表征

本文提出了一个新的算法框架来回答反事实问题，其将领域适应和表示学习的思想结合起来，并通过实证比较表明，我们的深度学习算法显著优于以前的现有技术，可以用于处理各种领域的观察研究数据的因果推断问题。

May, 2016

持续因果效应估计：挑战与机遇

在大数据时代，处于生态经济学、医疗保健、网络挖掘、在线广告和市场营销等多个领域的观测数据的因果关系进一步的理解异常重要。然而目前现有的因果效果评估方法主要集中在源特定和固定的观测数据上，缺乏对数据连续性、领域适配性以及海量数据的易用性等问题的持续性研究，而这些问题非常普遍。本论文定义了持续性治疗效果的评估问题，并提出了问题的研究难点和可能的解决方案。最后，我们还讨论了未来该领域的研究方向。

Jan, 2023

融合观察、偏差和随机数据源的近似反事实界限

通过数据集成、反事实计算和因果推断方法，我们的研究对于解决具有选择偏差的数据集以及多个数据集之间的整合问题提出了有效的解决方案。

Jul, 2023

从观测数据中学习多阶段选择问题的公平策略

通过解决难以计算的无限机会约束程序，提出了一种多阶段框架，用于从观测数据中学习公平策略，该问题与公司招聘、贷款批准或保释决策等高风险领域中的选择相关，我们专注于可解释的线性选择规则，并通过解决混合二次锥优化问题获得了组合评价的解决方案，与现有的选择策略相比，在精确度方面提高了 11.6%，在不公平度方面减少了 38%。

Dec, 2023