结合实验和历史数据进行政策评估

Jun, 2024

结合实验和历史数据进行政策评估

Combining Experimental and Historical Data for Policy Evaluation

Ting Li, Chengchun Shi, Qianglin Wen, Yang Sui, Yongli Qin...

TL;DR本文研究了使用多个数据源进行政策评估的方法，特别是在一个包含两个实验群体的实验数据集，并补充了一个由单一对照群体生成的历史数据集的情景中。我们提出了一种新颖的数据集成方法，线性地整合基于实验数据和历史数据构建的基于政策值的估计器，通过优化权重以最小化结果估计器的均方误差（MSE）。我们进一步应用悲观原则来获得更加鲁棒的估计器，并将这些方法扩展到顺序决策制定。从理论上讲，我们建立了我们提出的估计器的非渐近误差界，并推导出在广泛的奖励变动情景下其适用性、效率和鲁棒性属性。来自一家共享出行公司的数值实验和基于真实数据的分析证明了所提出估计器的卓越性能。

Abstract

This paper studies policy evaluation with multiple data sources, especially in scenarios that involve one experimental dataset with two ar

policy evaluation multiple data sources experimental dataset historical dataset data integration

发现论文，激发创造

强化学习的高效离线策略评估

本文提出了一种新的方法来预测在给定历史数据的情况下，加强学习策略的表现。通过在模型基础评估和重要性采样评估之间进行混合，提出一个基于双重稳健估计器扩展的新估计器，使得估计结果的均方误差通常比现有方法低几个数量级。

Apr, 2016

平衡策略评估与学习

提出了一种基于平衡的权重方法来评估和学习个性化决策策略，该方法适用于利用历史记录来进行个性化医疗和互联网广告，该方法明显优于现有方法。

May, 2017

使用多个记录器生成的日志赌器反馈进行有效评估

本文研究了如何利用历史数据来预测目标策略的性能，并提出了两种替代方法，相比于传统方法，能够更准确地评估交互式系统的新政策。

Mar, 2017

使用双机器学习方法结合实验和观测数据

本文提出了一种双机器学习方法，以结合实验和观测研究，让从业人员能够测试假设的违规情况并一致地估计治疗效果，进而测试外部效度和忽略的可接受性。然而，我们的无免费午餐定理强调了准确识别被违反的假设对于一致的治疗效果估计的必要性。我们在三个实际案例研究中展示了我们的方法的适用性，并突出了其在实际设置中的相关性。

Jul, 2023

结合试验与观察数据的外部有效政策评估

使用试验数据对目标人群的政策结果进行验证，使用来自目标人群的附加协变量数据模拟试验研究中个体的抽样，开发了一种非参数的方法，确保在任何指定的模型误差范围内得到有效的基于试验的政策评估，通过模拟和真实数据对认证的政策评估进行了展示。

Oct, 2023

行为策略搜索增强数据高效策略评估

本篇论文提出了一个基于行为策略的评估方法，利用之前数据收集的行为策略，提供了一个标准方法更低均方误差无偏估计的解决方案，并给出了优化理论和搜索算法。

Jun, 2017

具有战略数据来源的最佳统计估计

提出一种最优机制，为统计估算器的数据源提供货币激励，以低成本提供高质量的数据，使支付总额和估算误差最小，广泛应用于线性回归和多项式回归，核回归和岭回归等估算器，并应用于各种目标，包括在预算限制下减少估算误差。

Aug, 2014

通过矩阵加权线性估计器从观测和干预数据中估计因果效应

本文探讨了在混杂线性回归模型和多元治疗中从混合的观测和干预数据中估计因果效应，并展示了通过结合来自观测和干预设置的估计器可以提高统计效率。

Jun, 2023

自适应数据采集的政策学习

本文探讨在自适应数据收集环境下如何使用基于加权的估计算法来学习最优策略，提出了基于广义增强的倾向性加权（AIPW）估计器的算法，并建立了有限样本遗憾上限，证明最优权重方案下，算法即使在减少探索数据的情况下也能实现最小化的遗憾保证。

May, 2021

利用观测数据进行政策学习

本文提出了一种新的方法来优化二分类或连续处理的细微变化，该方法可以利用观测数据，其中因果效应使用各种策略（包括可观察的选择和仪器变量）进行识别，并建立了一种针对选择谁进行治疗的算法，并确定了其产生的政策渐近效用后悔的强有力保证。

Feb, 2017