无正性政策学习的观测数据

Oct, 2023

Positivity-free Policy Learning with Observational Data

Pan Zhao, Antoine Chambaz, Julie Josse, Shu Yang

TL;DR利用观察数据进行政策学习在各个领域中至关重要，本研究介绍一种新型的无正性假设的（随机）政策学习框架，用于解决实际场景中正性假设不可行的挑战，该框架利用增量倾向得分策略来调整倾向得分值，而不是将固定值分配给治疗方案，通过半参数效率理论建立了这些增量倾向得分策略的特征和识别条件，并提出了能够实现快速收敛速度的高效估计器，即使与先进的机器学习算法结合使用，本文通过全面的数值实验验证了所提出的框架在有限样本情况下的性能，确保从观察数据中识别因果效应的可靠性和稳健性。

Abstract

policy learning utilizing observational data is pivotal across various domains, with the objective of learning the optimal treatment assignment policy while adhering to specific constraints such as fairness, budg

policy learning observational data positivity-free policy propensity score causal effects

发现论文，激发创造

利用观测数据进行政策学习

本文提出了一种新的方法来优化二分类或连续处理的细微变化，该方法可以利用观测数据，其中因果效应使用各种策略（包括可观察的选择和仪器变量）进行识别，并建立了一种针对选择谁进行治疗的算法，并确定了其产生的政策渐近效用后悔的强有力保证。

Feb, 2017

从观测数据中学习最优策略

本文通过控制实验方法和观察性数据建立了最优决策的理论模型，并利用域对抗神经网络的方法进行决策选择，从而在处理缺失反事实和选择偏差方面取得了较好的效果。

Feb, 2018

混淆鲁棒政策改进

研究使用观察数据学习个性化决策策略时如何考虑可能的未观测混杂因素以及最小化候选策略的最坏估计后悔的方法和算法，以在保证安全和关注证据改进的前提下得到可靠的个性化治疗策略。

May, 2018

从观测数据中学习多阶段选择问题的公平策略

通过解决难以计算的无限机会约束程序，提出了一种多阶段框架，用于从观测数据中学习公平策略，该问题与公司招聘、贷款批准或保释决策等高风险领域中的选择相关，我们专注于可解释的线性选择规则，并通过解决混合二次锥优化问题获得了组合评价的解决方案，与现有的选择策略相比，在精确度方面提高了 11.6%，在不公平度方面减少了 38%。

Dec, 2023

平衡策略评估与学习

提出了一种基于平衡的权重方法来评估和学习个性化决策策略，该方法适用于利用历史记录来进行个性化医疗和互联网广告，该方法明显优于现有方法。

May, 2017

最佳和公平的激励政策评估与学习

连同统计可减少方差的估计和鲁棒估计在内，研究了在可能违反正性的情况下的最优治疗规则的因果识别和估计，以及如公平性等约束通过约束优化处理，并提出了用于获得方差敏感性遗憾界的多参数政策类的两阶段算法。

Sep, 2023

多动作场景中基于观测数据的最优策略学习：估计、风险偏好和潜在失败

该论文讨论了使用观察数据进行最优策略学习（OPL）的多行动（或多臂）设置下的数据驱动最优决策问题，分别从估计、风险偏好和潜在失败三个方面进行了讨论，并提出了关于线下最优策略学习估计器的识别假设和统计特性，以及决策风险分析和最优选择受决策者风险态度的影响，最后讨论了影响最优数据驱动决策的条件限制。

Mar, 2024

借势中介器的悲观因果强化学习与混淆线下数据

通过采用基于前门准则的中介变量来消除混淆偏差，以及采用悲观原则来解决由候选策略引起的行为分布和生成观测数据的行为策略之间的分布偏移，我们提出了一种新颖的策略学习算法 PESsimistic CAusal Learning (PESCAL)，并证明了算法的理论保证，并利用来自一家领先乘车平台的离线数据集的仿真和真实世界实验证明了其有效性。

Mar, 2024

分布式鲁棒批次情境式赌博机

本文提出了一种利用历史观测数据解决偏移环境的分布鲁棒性策略学习算法，该算法通过提出的策略评估方案和基于均匀收敛理论的性能保证实现对敌对干扰和未知协变量转移的稳健性，并在真实世界数据集中展示了该方法的应用。

Jun, 2020

从观测、偏见和随机数据学习界定反事实推断

本文介绍一种方法，通过数据整合和建立结构性因果模型，在不同条件下解决由选择偏差引起的局部统计问题，并针对数据集的部分可识别性问题提出了一种逼近计算方法。通过系统的实验验证和实例研究，证明了这种方法的可行性和准确性，并揭示了数据整合对于信息界的提高具有积极的作用。

Dec, 2022