学习何时治疗的策略

May, 2019

Learning When-to-Treat Policies

Xinkun Nie, Emma Brunskill, Stefan Wager

TL;DR开发了一种基于 “优势双倍稳健” 估计器的动态治疗规则学习方法，适用于顺序无关性假设，证明了福利遗憾界，展示了在几种不同背景下有希望的实证表现。该方法适用于政策优化，不需要任何结构性假设。

Abstract

Many applied decision-making problems have a dynamic component: The policymaker needs not only to choose whom to treat, but also when to start which treatment. For example, a medical doctor may choose between postponing treatment (watchful waiting) and prescribing one of several available treatments during the many visits from a patient. We develop an "advan

dynamic treatment rules observational data welfare regret bounds policy optimization sequential ignorability

发现论文，激发创造

利用观测数据进行政策学习

本文提出了一种新的方法来优化二分类或连续处理的细微变化，该方法可以利用观测数据，其中因果效应使用各种策略（包括可观察的选择和仪器变量）进行识别，并建立了一种针对选择谁进行治疗的算法，并确定了其产生的政策渐近效用后悔的强有力保证。

Feb, 2017

多目标完全观测结果下的治疗策略学习

本研究比较并评估了三种在医疗决策中学习个性化治疗方针的方法：两种间接方法和一种直接方法。研究结果表明，三种方法均优于临床医生，并在不同目标之间进行权衡。直接方法还具有其他优点，包括灵活地将其他目标纳入考量，适用于简单情况的医师推迟。

Jun, 2020

估计最优动态治疗方案的 $Q$- 和 $A$- 学习方法

通过使用现有数据，我们详细介绍了临床医生制定动态治疗方案的方法，以及用于估算最优方案的两种主要方法：Q-learning 和 A-learning，并使用抑郁症研究的数据进行了说明。

Feb, 2012

离线多操作策略学习：泛化与优化

本文主要研究基于观测数据的离线多行动策略学习问题，特别地，该策略可能需要遵守预算约束或属于受限策略类，如决策树，提出了一个算法实现，能够达到渐近最小化风险后悔，这是在多行动设置中的首次结果，对于现有的学习算法有大幅度的性能提升。该文提出了两种不同的方法来解决当策略被限制为采用决策树形式时出现的附加计算挑战，一种方法使用混合整数方案，另一种方法使用基于树搜索的算法。

Oct, 2018

平衡策略评估与学习

提出了一种基于平衡的权重方法来评估和学习个性化决策策略，该方法适用于利用历史记录来进行个性化医疗和互联网广告，该方法明显优于现有方法。

May, 2017

双重稳健策略评估与学习

在具有上下文情境和目标函数的决策环境中，我们使用双重稳健技术评估新策略，并证明这种方法使价值估计具有较低的方差，且能达到更好的策略，为该领域提供一种有效的方法。

Mar, 2011

利用观察数据进行个体化治疗规则的高效增强和松弛学习

本文介绍了通过重新定义分类问题，将最优治疗规则的估计转化为分类问题，提出了一类新的基于凸大间隔分类器的最优治疗规则估计方法，这类方法具有双重稳健性，能够在使用属性模型或结果模型进行正确说明时一致地估计最优个体化治疗规则，并使用半参数效率理论技术推导了提议的估计器的一致收敛率，并使用这些结果表征了基于分类的方法估计最优治疗规则时的偏差 - 方差折衷，并通过仿真实验证明了在提议的框架内构造的新估计器可以显著优于现有估计器，数据来自劳动培训计划和炎症性肠病研究。

Jan, 2019

混淆鲁棒政策改进

研究使用观察数据学习个性化决策策略时如何考虑可能的未观测混杂因素以及最小化候选策略的最坏估计后悔的方法和算法，以在保证安全和关注证据改进的前提下得到可靠的个性化治疗策略。

May, 2018

最佳和公平的激励政策评估与学习

连同统计可减少方差的估计和鲁棒估计在内，研究了在可能违反正性的情况下的最优治疗规则的因果识别和估计，以及如公平性等约束通过约束优化处理，并提出了用于获得方差敏感性遗憾界的多参数政策类的两阶段算法。

Sep, 2023

阶段感知学习动态治疗

针对动态治疗方案中样本不足的问题，我们提出了一种新的个体化学习方法，以优化决策阶段中观测到的治疗轨迹与最佳治疗方案之间的一致性，并引入阶段重要性评分和注意机制来明确考虑决策阶段的异质性。在理论和实证研究中，我们证明了该方法的性质并对其性能进行了评估，包括广泛模拟环境和 COVID-19 疫情的实际案例研究。

Oct, 2023