Aug, 2011

动态治疗方案的惩罚式 Q 学习

TL;DR该论文提出一种基于惩罚的 Q 学习框架(PQ-learning)来解决治疗效应参数不规则性的统计推断问题,并提出了相应的个体选择方法来将这一框架应用于动态治疗决策制定中,结果证明其在计算和推论方面均具有优越性。该方法已经应用于抑郁症临床试验研究。