May, 2023

为离线评估学习动作嵌入

TL;DR本研究提出了一种使用训练好的奖励模型输出来定义 MIPS 动作嵌入的方法,该方法可以减少 IPS 在大规模动作空间中的方差,并扩展了 MIPS 的应用范围,在合成和实际数据上都优于预定义的嵌入和标准基线模型,不需要奖励模型类的假设,并支持使用其他动作信息来进一步提高估计精度。