Jan, 2019
模仿正则化的离线学习
Imitation-Regularized Offline Learning
Yifei Ma, Yu-Xiang Wang, Balakrishnan, Narayanaswamy
TL;DR本研究讨论在上下文幸存者模型下自动化决策系统的离线学习问题,提出了一种通过策略改进和正则化来解决 IPWE 中参数估计不准的问题的方法。实验证明,该方法在无概率记录情况下比目前最先进的 CE 损失更准确,而在有概率记录的情况下,可以帮助我们排除混淆变量或模型规范化失误。