May, 2019

学习何时治疗的策略

TL;DR开发了一种基于 “优势双倍稳健” 估计器的动态治疗规则学习方法,适用于顺序无关性假设,证明了福利遗憾界,展示了在几种不同背景下有希望的实证表现。该方法适用于政策优化,不需要任何结构性假设。