通过优化概括方法评估推荐策略的离策略算法
该研究提出了自适应 IPS(AIPS)的方法来解决 IPS 方法在排名设置中应用的巨大方差问题,还探讨了用户行为多样性的影响。该方法极大地提高了排名系统的 OPE 有效性。
Jun, 2023
本研究提出了一种使用训练好的奖励模型输出来定义 MIPS 动作嵌入的方法,该方法可以减少 IPS 在大规模动作空间中的方差,并扩展了 MIPS 的应用范围,在合成和实际数据上都优于预定义的嵌入和标准基线模型,不需要奖励模型类的假设,并支持使用其他动作信息来进一步提高估计精度。
May, 2023
提出一种基于边际化重要性权重的新 Off-Policy Evaluation(OPE)估算器,旨在解决现有 OPE 估算器在动作数量很大时出现的极端偏差和方差问题,能够为许多应用程序,从推荐系统到语言模型中提供可靠的 OPE,并分析了行动嵌入在传统估计量之上提供统计收益的条件。
Feb, 2022
本文研究了具有多维动作,即石板的批量上下文强化学习的现实场景 —— 推荐系统和用户界面优化 —— 中的离线策略评估问题。通过控制变量,我们考虑了一类包括伪逆估计器(PI estimator)和(渐近地)自归一化 PI 估计器在内的无偏估计器,通过优化这一类得到的新估计量具有比 PI 和自归一化 PI 估计量更好的风险收敛性。真实世界的推荐数据和合成数据的实验验证了这些改进的实际效果。
Jun, 2021
本文提出了一种对 IPS 进行正则化的方法,并推导出了一个可扩展的双边 PAC-Bayes 泛化界限,该界限适用于标准 IPS,证明了正则化 IPS 的实用性以及性能优越性,并提出了一种可以不需要正则化的区分情形。
May, 2023
我们在具有大动作空间的情境赌博设置中研究了离策略评估 (Off-Policy Evaluation,OPE)。基准估计器在严重的偏差和方差权衡中遇到困难。为了克服这些限制,我们提出了基于动作嵌入 (MIPS) 的边际化逆向倾向评分 (Marginalized Inverse Propensity Scoring, MIPS) 来减少估计器的方差。为了使估计器更准确,我们提出了 MIPS 的双重稳健估计器 (Marginalized Doubly Robust, MDR)。理论分析表明,所提出的估计器在比 MIPS 更弱的假设下是无偏的,同时保持对 IPS 的方差减少,这是 MIPS 的主要优势。经验实验证实了 MDR 对现有估计器的卓越性。
Aug, 2023
在本文中,我们介绍了一种新的基于边际比率的 Off-Policy Evaluation (OPE) 估计器,用于 contextual bandits,旨在通过关注结果边际分布的变化来减少方差。我们通过严格的理论分析证明了 MR 估计器相对于传统方法(如 IPW 和 DR)在方差减小方面的优势。此外,我们还验证了 MR 估计器与最先进的 Marginalized Inverse Propensity Score (MIPS) 估计器之间的联系,并证明 MR 在广义 MIPS 估计器家族中具有更低的方差。我们的实验结果在合成数据集和真实世界数据集上验证了我们的理论发现,并突出了 MR 估计器在 contextual bandits 的 OPE 中的实际优势,特别是在因果推断设置中对于估计平均处理效应方面的性能提升。
Dec, 2023
本文研究了基于上下文的推荐策略(例如排名)的评估方法,在组合赌博技术的基础上引入了一种新的实用估计量,该方法可以使用已记录的数据估计政策的绩效,经过全面的实证评估,我们的估计器在多种设置下都很准确,包括在学习排序任务中作为子程序,我们导出了我们的估计器无偏的条件,这些条件比之前的推荐评估启发式要弱,并在实验中比参数方法具有更小的偏差,即使这些条件被违反。最后,我们的理论和实验也表明,与一般的无偏估计相比,所需的数据量呈指数级节约。
May, 2016
本文提出了一种基于经验似然的 OPE 估算器,相对于重要性抽样、自归一化重要性抽样和双重稳健估计具有更高的效率,并满足自归一化重要性抽样的稳定性和有界性。
Jun, 2019
本文介绍了一种新的名为 “最大似然反向倾向评分(MLIPS)” 的方法,用于从批量日志二手反馈中学习。与现有方法相比,MLIPS 不仅具有渐近无偏性,而且具有更小的均方根误差,表现出更好的性能。
Aug, 2018