以长期成果为目标
提出了一种新的框架,用于学习有效平衡长期和短期回报的最优策略,通过推导估计器的一致性、渐近正态性和半参数效率界限,揭示了短期结果如若关联,将有助于改善长期回报的估计器,基于所提出的估计器,发展了一种基于原则的策略学习方法,并推导出与所学策略相关的遗憾和估计误差的收敛速率,通过大量实验证明了所提方法的实用性。
May, 2024
本文研究了在难以收集数据的情况下,通过使用代理观测值对治疗效果进行高效估计,构建了基于机器学习技术的估计方法,并通过职业培训的长期收益效果的实证研究表明了其效果
Mar, 2020
本研究比较并评估了三种在医疗决策中学习个性化治疗方针的方法:两种间接方法和一种直接方法。研究结果表明,三种方法均优于临床医生,并在不同目标之间进行权衡。直接方法还具有其他优点,包括灵活地将其他目标纳入考量,适用于简单情况的医师推迟。
Jun, 2020
在许多实际因果推断应用中,主要结果(标签)通常部分缺失,特别是如果它们昂贵或难以收集。本文研究了替代变量在估计连续性处理效应中的作用,并提出了一种双重稳健方法,以有效地将替代变量纳入分析中,该方法使用标记和未标记数据,并不受选择偏差问题的影响。重要的是,我们建立了所提估计量的渐近正态性,并展示了与仅使用标记数据的方法相比可能的方差改进。大量仿真实验显示我们的方法具有吸引人的经验性能。
Jan, 2024
该论文研究了 Pareto 最优估计和政策学习方法,用于识别最有效的治疗方法,通过权衡短期和长期效果最大化总奖励,解决多目标优化和冲突问题。
Mar, 2024
在大量随机实验中,通过生成决策指南,我们引入了一种新的统计框架来定义并构建适用于同质人群的最佳代理度量标准,该度量标准能够与长期度量密切跟踪,并在噪声较高的情况下进行优化问题的解决。通过运用这种方法,我们在一个工业推荐系统的大量随机实验中应用我们的方法进行实例化和评估,并构建了相对于几个基准值表现优异的代理度量标准。
Sep, 2023
在在线平台中,推荐系统是一个普遍存在的功能,越来越多地被明确要求增加用户的长期满意度。本研究主要关注内容探索任务,将其形式化为一个带有延迟奖励的多臂赌博问题。我们观察到在选择学习信号时存在明显的权衡:等待全部奖励可用可能需要几个星期,从而影响学习的速度,而测量短期代理奖励只会不完美地反映实际的长期目标。我们通过两个步骤来解决这个挑战。首先,我们开发了一个预测延迟奖励的模型,该模型综合了迄今为止获得的所有信息。通过贝叶斯滤波器将完整观测和部分观测(短期或中期结果)结合起来,得到概率信念。其次,我们设计了一种利用这个新预测模型的赌博算法。该算法通过巧妙地平衡探索和开发快速学习到与长期成功一致的内容。我们将我们的方法应用于播客推荐问题,期望在两个月内找到用户重复参与的节目。经验证明,我们的方法相比于优化短期代理或等待完全实现长期结果的方法,能够显著提高性能。
Jul, 2023
开发了一种基于 “优势双倍稳健” 估计器的动态治疗规则学习方法,适用于顺序无关性假设,证明了福利遗憾界,展示了在几种不同背景下有希望的实证表现。该方法适用于政策优化,不需要任何结构性假设。
May, 2019