基于分布式的离线策略评估：面向推荐系统的多项式建议

Aug, 2023

基于分布式的离线策略评估：面向推荐系统的多项式建议

Distributional Off-Policy Evaluation for Slate Recommendations

Shreyas Chaudhari, David Arbour, Georgios Theocharous, Nikos Vlassis

TL;DR提出了一种估计多个物品推荐策略的完整离线性能分布的估计器，并确定了估计器无偏且一致的条件。通过在合成数据和基于真实世界数据（MovieLens-20M）构建的推荐模拟器上进行实证验证，结果表明相比以前的工作，在各种推荐类型的情况下，估计方差显著减小，并且样本效率提高。

Abstract

recommendation strategies are typically evaluated by using previously logged data, employing off-policy evaluation methods to estimate their expected performance. However, for strategies that present users with <

recommendation strategies off-policy evaluation slates performance distribution estimator

发现论文，激发创造

基于非当前策略的推荐策略评估

本文研究了基于上下文的推荐策略（例如排名）的评估方法，在组合赌博技术的基础上引入了一种新的实用估计量，该方法可以使用已记录的数据估计政策的绩效，经过全面的实证评估，我们的估计器在多种设置下都很准确，包括在学习排序任务中作为子程序，我们导出了我们的估计器无偏的条件，这些条件比之前的推荐评估启发式要弱，并在实验中比参数方法具有更小的偏差，即使这些条件被违反。最后，我们的理论和实验也表明，与一般的无偏估计相比，所需的数据量呈指数级节约。

May, 2016

Slate 离策略评估的控制变量

本文研究了具有多维动作，即石板的批量上下文强化学习的现实场景 —— 推荐系统和用户界面优化 —— 中的离线策略评估问题。通过控制变量，我们考虑了一类包括伪逆估计器（PI estimator）和（渐近地）自归一化 PI 估计器在内的无偏估计器，通过优化这一类得到的新估计量具有比 PI 和自归一化 PI 估计量更好的风险收敛性。真实世界的推荐数据和合成数据的实验验证了这些改进的实际效果。

Jun, 2021

通过优化概括方法评估推荐策略的离策略算法

我们开发了一种用于预测多维动作的选择问题中离线策略评估的新方法，称为潜在 IPS（LIPS），它通过在低维抽象空间中优化抽象来最小化 LIPS 的偏差和方差，从而显著减小 IPS 的方差并避免对奖励函数结构进行过多的限制性假设，通过实证评估，我们证明 LIPS 在非线性奖励和大型抽象空间的场景中明显优于现有的评估方法。

Feb, 2024

生成式推荐的变异控制和评估

本文提出采用多样性度量方法来增强精度评估，这样可以估计生成模型的随机行为。我们提出了一个有效的生成解决方案，它位于两个极端的尺肘区域之间，并演示了物品扰动可以强制执行以更好的覆盖物品变化，并将性能扩展到易于发现的区域。我们进一步提出将中心枢轴选择阶段与生成过程分开，以便于应用扰动，实验结果表明，这种简单的修改可以提供更好的方差与同等精度的后生成扰动方法相比。

Feb, 2021

快速高效的垒位策略优化：超越普拉基特–卢斯模型

大规模机器学习系统的一个关键组成部分是返回选项列表；这篇论文在给定任意奖励函数的情况下，通过在决策函数上应用一种新的松弛技术，提出了一种简单而高效的学习算法来优化这些大规模决策系统，能够扩展到庞大的动作空间规模，相比常用的 Plackett-Luce 策略类，证明了该方法的有效性。

Aug, 2023

使用顺序奖励交互的对比评估编号推荐

该研究提出了一种图形假设的因果关系方法，以重新加权日志策略中的奖励，从而近似于目标策略下的奖励和，以解决串行互动推荐问题。在模拟和实际推荐系统中进行的广泛实验表明，该方法在偏差和数据效率方面优于现有方法。

Jul, 2020

基于强化学习的创作素材推荐

通过使用变分自编码器学习连续、低维的隐空间，从而在连续的潜在空间中选择筛选项，最终被解码成对应的筛选板，从而提高推荐系统的效果和多样性。

Jan, 2023

强化学习的高效离线策略评估

本文提出了一种新的方法来预测在给定历史数据的情况下，加强学习策略的表现。通过在模型基础评估和重要性采样评估之间进行混合，提出一个基于双重稳健估计器扩展的新估计器，使得估计结果的均方误差通常比现有方法低几个数量级。

Apr, 2016

基于低秩框架的推荐系统中的表示学习

提出了一种在推荐系统中使用强化学习优化推荐结果的样本高效表示学习算法，并构建了推荐模拟环境来解决这个问题。

Sep, 2023

基于石板的推荐系统的强化学习：可行的分解和实用方法论

该研究提供了使用深度强化学习技术解决个性化推荐系统中长期用户参与度问题的方法，通过分解价值函数，考虑了物品组合效应，并实验证明了该方法的可行性和扩展性。

May, 2019