以长期成果为目标

Oct, 2020

Targeting for long-term outcomes

Jeremy Yang, Dean Eckles, Paramveer Dhillon, Sinan Aral

TL;DR利用双重稳健方法对渐进流失管理策略进行长期结果的预测和优化，使用缺失的长期结果推断优化政策，使用先前实验获取数据评估该方法的有效性，并使用第二个实验执行有效的目标政策，取得了 4-5 百万美元的总净正收益。

Abstract

Decision makers often want to target interventions so as to maximize an outcome that is observed only in the long-term. This typically requires delaying decisions until the outcome is observed or relying on simple short-term proxies for the long-term outcome. Here we build on the statistical

long-term outcomes policy optimization churn management surrogacy doubly-robust approach

发现论文，激发创造

平衡短期和长期回报的政策学习

提出了一种新的框架，用于学习有效平衡长期和短期回报的最优策略，通过推导估计器的一致性、渐近正态性和半参数效率界限，揭示了短期结果如若关联，将有助于改善长期回报的估计器，基于所提出的估计器，发展了一种基于原则的策略学习方法，并推导出与所学策略相关的遗憾和估计误差的收敛速率，通过大量实验证明了所提方法的实用性。

May, 2024

长期离线策略评估与学习

使用只有历史和短期实验数据的可行方法准确估计算法的长期结果

Apr, 2024

有限结果数据中代理的角色在治疗效果有效估计中的作用

本文研究了在难以收集数据的情况下，通过使用代理观测值对治疗效果进行高效估计，构建了基于机器学习技术的估计方法，并通过职业培训的长期收益效果的实证研究表明了其效果

Mar, 2020

多目标完全观测结果下的治疗策略学习

本研究比较并评估了三种在医疗决策中学习个性化治疗方针的方法：两种间接方法和一种直接方法。研究结果表明，三种方法均优于临床医生，并在不同目标之间进行权衡。直接方法还具有其他优点，包括灵活地将其他目标纳入考量，适用于简单情况的医师推迟。

Jun, 2020

利用替代性结果进行连续治疗效果评估

在许多实际因果推断应用中，主要结果（标签）通常部分缺失，特别是如果它们昂贵或难以收集。本文研究了替代变量在估计连续性处理效应中的作用，并提出了一种双重稳健方法，以有效地将替代变量纳入分析中，该方法使用标记和未标记数据，并不受选择偏差问题的影响。重要的是，我们建立了所提估计量的渐近正态性，并展示了与仅使用标记数据的方法相比可能的方差改进。大量仿真实验显示我们的方法具有吸引人的经验性能。

Jan, 2024

通过行为博弈理论获取长期因果效应

该研究使用行为博弈理论和潜在空间方法，定义和估计政策变化的长期因果效应，以应对传统试验方法无法解决的动态响应问题。

Jan, 2015

基于帕累托最优的短期与长期治疗效果估计和策略学习

该论文研究了 Pareto 最优估计和政策学习方法，用于识别最有效的治疗方法，通过权衡短期和长期效果最大化总奖励，解决多目标优化和冲突问题。

Mar, 2024

选择过去实验中的代理指标

在大量随机实验中，通过生成决策指南，我们引入了一种新的统计框架来定义并构建适用于同质人群的最佳代理度量标准，该度量标准能够与长期度量密切跟踪，并在噪声较高的情况下进行优化问题的解决。通过运用这种方法，我们在一个工业推荐系统的大量随机实验中应用我们的方法进行实例化和评估，并构建了相对于几个基准值表现优异的代理度量标准。

Sep, 2023

不耐烦赌徒：无需延迟的长期优化

在在线平台中，推荐系统是一个普遍存在的功能，越来越多地被明确要求增加用户的长期满意度。本研究主要关注内容探索任务，将其形式化为一个带有延迟奖励的多臂赌博问题。我们观察到在选择学习信号时存在明显的权衡：等待全部奖励可用可能需要几个星期，从而影响学习的速度，而测量短期代理奖励只会不完美地反映实际的长期目标。我们通过两个步骤来解决这个挑战。首先，我们开发了一个预测延迟奖励的模型，该模型综合了迄今为止获得的所有信息。通过贝叶斯滤波器将完整观测和部分观测（短期或中期结果）结合起来，得到概率信念。其次，我们设计了一种利用这个新预测模型的赌博算法。该算法通过巧妙地平衡探索和开发快速学习到与长期成功一致的内容。我们将我们的方法应用于播客推荐问题，期望在两个月内找到用户重复参与的节目。经验证明，我们的方法相比于优化短期代理或等待完全实现长期结果的方法，能够显著提高性能。

Jul, 2023

学习何时治疗的策略

开发了一种基于 “优势双倍稳健” 估计器的动态治疗规则学习方法，适用于顺序无关性假设，证明了福利遗憾界，展示了在几种不同背景下有希望的实证表现。该方法适用于政策优化，不需要任何结构性假设。

May, 2019