Jan, 2019

模仿正则化的离线学习

TL;DR本研究讨论在上下文幸存者模型下自动化决策系统的离线学习问题,提出了一种通过策略改进和正则化来解决 IPWE 中参数估计不准的问题的方法。实验证明,该方法在无概率记录情况下比目前最先进的 CE 损失更准确,而在有概率记录的情况下,可以帮助我们排除混淆变量或模型规范化失误。