通过优化概括方法评估推荐策略的离策略算法

Feb, 2024

通过优化概括方法评估推荐策略的离策略算法

Off-Policy Evaluation of Slate Bandit Policies via Optimizing Abstraction

Haruka Kiyohara, Masahiro Nomura, Yuta Saito

TL;DR我们开发了一种用于预测多维动作的选择问题中离线策略评估的新方法，称为潜在 IPS（LIPS），它通过在低维抽象空间中优化抽象来最小化 LIPS 的偏差和方差，从而显著减小 IPS 的方差并避免对奖励函数结构进行过多的限制性假设，通过实证评估，我们证明 LIPS 在非线性奖励和大型抽象空间的场景中明显优于现有的评估方法。

Abstract

We study off-policy evaluation (OPE) in the problem of slate contextual bandits where a policy selects multi-dimensional actions known as slates. This problem is widespread in recommender systems, search engines, marketing, to medical applications, however, the typical →

off-policy evaluation slate contextual bandits inverse propensity scoring pseudoinverse estimator latent ips

发现论文，激发创造

多样化用户行为下排名策略的离线评估

该研究提出了自适应 IPS（AIPS）的方法来解决 IPS 方法在排名设置中应用的巨大方差问题，还探讨了用户行为多样性的影响。该方法极大地提高了排名系统的 OPE 有效性。

Jun, 2023

为离线评估学习动作嵌入

本研究提出了一种使用训练好的奖励模型输出来定义 MIPS 动作嵌入的方法，该方法可以减少 IPS 在大规模动作空间中的方差，并扩展了 MIPS 的应用范围，在合成和实际数据上都优于预定义的嵌入和标准基线模型，不需要奖励模型类的假设，并支持使用其他动作信息来进一步提高估计精度。

May, 2023

利用嵌入技术进行大型行动空间的离策估计

提出一种基于边际化重要性权重的新 Off-Policy Evaluation（OPE）估算器，旨在解决现有 OPE 估算器在动作数量很大时出现的极端偏差和方差问题，能够为许多应用程序，从推荐系统到语言模型中提供可靠的 OPE，并分析了行动嵌入在传统估计量之上提供统计收益的条件。

Feb, 2022

Slate 离策略评估的控制变量

本文研究了具有多维动作，即石板的批量上下文强化学习的现实场景 —— 推荐系统和用户界面优化 —— 中的离线策略评估问题。通过控制变量，我们考虑了一类包括伪逆估计器（PI estimator）和（渐近地）自归一化 PI 估计器在内的无偏估计器，通过优化这一类得到的新估计量具有比 PI 和自归一化 PI 估计量更好的风险收敛性。真实世界的推荐数据和合成数据的实验验证了这些改进的实际效果。

Jun, 2021

离线学习的指数平滑

本文提出了一种对 IPS 进行正则化的方法，并推导出了一个可扩展的双边 PAC-Bayes 泛化界限，该界限适用于标准 IPS，证明了正则化 IPS 的实用性以及性能优越性，并提出了一种可以不需要正则化的区分情形。

May, 2023

具有大行动空间的离策评估的双重稳健估计方法

我们在具有大动作空间的情境赌博设置中研究了离策略评估 (Off-Policy Evaluation，OPE)。基准估计器在严重的偏差和方差权衡中遇到困难。为了克服这些限制，我们提出了基于动作嵌入 (MIPS) 的边际化逆向倾向评分 (Marginalized Inverse Propensity Scoring, MIPS) 来减少估计器的方差。为了使估计器更准确，我们提出了 MIPS 的双重稳健估计器 (Marginalized Doubly Robust, MDR)。理论分析表明，所提出的估计器在比 MIPS 更弱的假设下是无偏的，同时保持对 IPS 的方差减少，这是 MIPS 的主要优势。经验实验证实了 MDR 对现有估计器的卓越性。

Aug, 2023

在情境强化学习中进行的离线策略评估的边际密度比

在本文中，我们介绍了一种新的基于边际比率的 Off-Policy Evaluation (OPE) 估计器，用于 contextual bandits，旨在通过关注结果边际分布的变化来减少方差。我们通过严格的理论分析证明了 MR 估计器相对于传统方法（如 IPW 和 DR）在方差减小方面的优势。此外，我们还验证了 MR 估计器与最先进的 Marginalized Inverse Propensity Score (MIPS) 估计器之间的联系，并证明 MR 在广义 MIPS 估计器家族中具有更低的方差。我们的实验结果在合成数据集和真实世界数据集上验证了我们的理论发现，并突出了 MR 估计器在 contextual bandits 的 OPE 中的实际优势，特别是在因果推断设置中对于估计平均处理效应方面的性能提升。

Dec, 2023

基于非当前策略的推荐策略评估

本文研究了基于上下文的推荐策略（例如排名）的评估方法，在组合赌博技术的基础上引入了一种新的实用估计量，该方法可以使用已记录的数据估计政策的绩效，经过全面的实证评估，我们的估计器在多种设置下都很准确，包括在学习排序任务中作为子程序，我们导出了我们的估计器无偏的条件，这些条件比之前的推荐评估启发式要弱，并在实验中比参数方法具有更小的偏差，即使这些条件被违反。最后，我们的理论和实验也表明，与一般的无偏估计相比，所需的数据量呈指数级节约。

May, 2016

强化学习的本质高效、稳定和有界离线策略评估

本文提出了一种基于经验似然的 OPE 估算器，相对于重要性抽样、自归一化重要性抽样和双重稳健估计具有更高的效率，并满足自归一化重要性抽样的稳定性和有界性。

Jun, 2019

基于模拟策略的非珂环境下评估和学习记录型匪徒反馈反馈数据：通过替代策略减少误差

本文介绍了一种新的名为 “最大似然反向倾向评分（MLIPS）” 的方法，用于从批量日志二手反馈中学习。与现有方法相比，MLIPS 不仅具有渐近无偏性，而且具有更小的均方根误差，表现出更好的性能。

Aug, 2018