基于非当前策略的推荐策略评估

May, 2016

Off-policy evaluation for slate recommendation

Adith Swaminathan, Akshay Krishnamurthy, Alekh Agarwal, Miroslav Dudík, John Langford...

TL;DR本文研究了基于上下文的推荐策略（例如排名）的评估方法，在组合赌博技术的基础上引入了一种新的实用估计量，该方法可以使用已记录的数据估计政策的绩效，经过全面的实证评估，我们的估计器在多种设置下都很准确，包括在学习排序任务中作为子程序，我们导出了我们的估计器无偏的条件，这些条件比之前的推荐评估启发式要弱，并在实验中比参数方法具有更小的偏差，即使这些条件被违反。最后，我们的理论和实验也表明，与一般的无偏估计相比，所需的数据量呈指数级节约。

Abstract

This paper studies the evaluation of policies that recommend an ordered set of items (e.g., a ranking) based on some context---a common scenario in web search, ads, and recommendation. We build on techniques from combinatorial bandits to introduce a new practical estimator that uses logged da

policy evaluation ordered set of items combinatorial bandits logged data learning-to-rank

发现论文，激发创造

基于分布式的离线策略评估：面向推荐系统的多项式建议

提出了一种估计多个物品推荐策略的完整离线性能分布的估计器，并确定了估计器无偏且一致的条件。通过在合成数据和基于真实世界数据（MovieLens-20M）构建的推荐模拟器上进行实证验证，结果表明相比以前的工作，在各种推荐类型的情况下，估计方差显著减小，并且样本效率提高。

Aug, 2023

Slate 离策略评估的控制变量

本文研究了具有多维动作，即石板的批量上下文强化学习的现实场景 —— 推荐系统和用户界面优化 —— 中的离线策略评估问题。通过控制变量，我们考虑了一类包括伪逆估计器（PI estimator）和（渐近地）自归一化 PI 估计器在内的无偏估计器，通过优化这一类得到的新估计量具有比 PI 和自归一化 PI 估计量更好的风险收敛性。真实世界的推荐数据和合成数据的实验验证了这些改进的实际效果。

Jun, 2021

通过优化概括方法评估推荐策略的离策略算法

我们开发了一种用于预测多维动作的选择问题中离线策略评估的新方法，称为潜在 IPS（LIPS），它通过在低维抽象空间中优化抽象来最小化 LIPS 的偏差和方差，从而显著减小 IPS 的方差并避免对奖励函数结构进行过多的限制性假设，通过实证评估，我们证明 LIPS 在非线性奖励和大型抽象空间的场景中明显优于现有的评估方法。

Feb, 2024

使用顺序奖励交互的对比评估编号推荐

该研究提出了一种图形假设的因果关系方法，以重新加权日志策略中的奖励，从而近似于目标策略下的奖励和，以解决串行互动推荐问题。在模拟和实际推荐系统中进行的广泛实验表明，该方法在偏差和数据效率方面优于现有方法。

Jul, 2020

快速高效的垒位策略优化：超越普拉基特–卢斯模型

大规模机器学习系统的一个关键组成部分是返回选项列表；这篇论文在给定任意奖励函数的情况下，通过在决策函数上应用一种新的松弛技术，提出了一种简单而高效的学习算法来优化这些大规模决策系统，能够扩展到庞大的动作空间规模，相比常用的 Plackett-Luce 策略类，证明了该方法的有效性。

Aug, 2023

生成式推荐的变异控制和评估

本文提出采用多样性度量方法来增强精度评估，这样可以估计生成模型的随机行为。我们提出了一个有效的生成解决方案，它位于两个极端的尺肘区域之间，并演示了物品扰动可以强制执行以更好的覆盖物品变化，并将性能扩展到易于发现的区域。我们进一步提出将中心枢轴选择阶段与生成过程分开，以便于应用扰动，实验结果表明，这种简单的修改可以提供更好的方差与同等精度的后生成扰动方法相比。

Feb, 2021

使用点击模型对排名策略进行离线评估

本文提出了一种评估算法来预测历史日志数据中排名列表上的点击数，并使用用户与项目列表的交互模型来构建统计效率更高的估计器。实验结果表明，相对于先前的估计器，该算法具有更高的性能表现。

Apr, 2018

使用多个记录器生成的日志赌器反馈进行有效评估

本文研究了如何利用历史数据来预测目标策略的性能，并提出了两种替代方法，相比于传统方法，能够更准确地评估交互式系统的新政策。

Mar, 2017

基于级联行为模型的排序策略双重稳健离线评估

提出了一种新的基于级联假设的有偏差 - 无方差权衡评估器来评估推荐系统中的排名策略，在综合合成和真实数据实验中优于现有评估器。

Feb, 2022

基于多臂老虎机的新闻文章推荐算法的无偏离线评估

本文介绍了一种基于数据驱动的回放方法，用于在线推荐系统中上下文匹配算法的离线评估，解决了传统基于模拟器的方法中数据建模困难且存在偏差的问题，并在 Yahoo! 等大规模新闻文章推荐数据集表现出的神经网络在在线离线策略上的准确性和效率。

Mar, 2010