Nov, 2018

如此可能而不可能:反事实指导的策略搜索

TL;DR利用结构因果模型对离线策略学习算法进行对实验数据的反事实评估,并通过模型预测提高模型预测的偏差。