Oct, 2023

基于状态 - 动作相似性的离线策略评估

TL;DR该研究通过引入一个 OPE-tailored 的状态 - 动作行为相似性度量并使用固定数据集来学习该度量以增加数据效率,证明了这种度量可以限制导致的 OPE 估计误差,并通过实证研究证明这种学习表示方法相对于其他 OPE-based 表示学习方法在具有挑战性的 OPE 任务中提高了 FQE 的数据效率并降低了 OPE 误差,该方法还可以在不同分布变化时显著减轻 FQE 的发散问题。