将奖励与排名信号结合的瓦片推荐

KDDJul, 2021

将奖励与排名信号结合的瓦片推荐

Combining Reward and Rank Signals for Slate Recommendation

Imad Aouali, Sergey Ivanov, Mike Gartrell, David Rohde, Flavian Vasile...

TL;DR本文提出了几种贝叶斯模型，使用奖励信号、排名信号或两者结合的方法进行非个性化的推荐。通过分析实验结果，证明全模型在产品数量增加或画板大小增加时，可以获得显著的性能提升。

Abstract

We consider the problem of slate recommendation, where the recommender system presents a user with a collection or slate composed of K recommended items at once. If the user finds the recommended items appealing then the user may click and the recommender system receives some feedback.

slate recommendation bayesian models non-personalized reward signal rank signal

发现论文，激发创造

Seq2Slate: 使用循环神经网络重新排序和优化结果列表

该篇研究论文介绍了一种基于序列的排名模型 seq2slate，可以结合物品之间的相互影响进行新物品的推荐，并利用易于获取的点击数据进行端到端模型训练，在标准排名基准测试和真实推荐系统中获得了实验结果的验证。

Oct, 2018

使用门控循环单元和汤普森抽样的动态石板推荐

通过建立一种基于变分贝叶斯递归神经网络的推荐系统，利用用户和网络交互的时间序列数据，自适应地为用户提供适宜的内容，同时引入一种层级先验以及组内成员关系考虑的项参数学习方法，结合多臂老虎机策略以及 slate Thompson Sampling 算法优化推荐效果，并在在线实验和来自挪威 FINN.no 平台的离线数据测试中验证了该方法的有效性。

Apr, 2021

FINN.no Slates 数据集：一个记录交互、所有已查看项目和点击响应 / 未点击的新的序列数据集，用于推荐系统研究

介绍了一个包括推荐系统中展现给用户的物品 slate、用户是否点击事件及点击的物品的顺序等顺序交互数据的数据集，并利用该数据集证明了使用 slate 数据的概率模型能够更准确的评估用户的点击率并避免偏差。

Nov, 2021

使用顺序奖励交互的对比评估编号推荐

该研究提出了一种图形假设的因果关系方法，以重新加权日志策略中的奖励，从而近似于目标策略下的奖励和，以解决串行互动推荐问题。在模拟和实际推荐系统中进行的广泛实验表明，该方法在偏差和数据效率方面优于现有方法。

Jul, 2020

基于非当前策略的推荐策略评估

本文研究了基于上下文的推荐策略（例如排名）的评估方法，在组合赌博技术的基础上引入了一种新的实用估计量，该方法可以使用已记录的数据估计政策的绩效，经过全面的实证评估，我们的估计器在多种设置下都很准确，包括在学习排序任务中作为子程序，我们导出了我们的估计器无偏的条件，这些条件比之前的推荐评估启发式要弱，并在实验中比参数方法具有更小的偏差，即使这些条件被违反。最后，我们的理论和实验也表明，与一般的无偏估计相比，所需的数据量呈指数级节约。

May, 2016

生成器和评论家：一种用于电子商务中 Slate 重新排名的深度强化学习方法

本篇研究提出了一种基于生成器和评论家的石板重排方法，其中评论家评估石板，生成器通过强化学习方法对项目进行排名。通过 PPO-Exploration 探索算法进行生成器的排名，取得了比现有强化学习方法更好的效果，有效提高了石板的效率和多样性在世界上最大的电子商务网站的实验中。

May, 2020

生成式推荐的变异控制和评估

本文提出采用多样性度量方法来增强精度评估，这样可以估计生成模型的随机行为。我们提出了一个有效的生成解决方案，它位于两个极端的尺肘区域之间，并演示了物品扰动可以强制执行以更好的覆盖物品变化，并将性能扩展到易于发现的区域。我们进一步提出将中心枢轴选择阶段与生成过程分开，以便于应用扰动，实验结果表明，这种简单的修改可以提供更好的方差与同等精度的后生成扰动方法相比。

Feb, 2021

SetRank：基于集合贝叶斯方法的隐式反馈协同排名

本文提出了一种基于集合的贝叶斯方法 SetRank 用于协同排序，旨在最大化新颖的集合偏好比较的后验概率。同时作者还经过理论分析表明误差的上界与用户和产品数量成正比。最后，四个真实世界数据集的广泛实验清楚地验证了 SetRank 相对于各种现有技术基线的优越性。

Feb, 2020

通过列表 - 条件变分自编码器进行排序优化

该研究提出了一种使用基于用户反馈的条件变分自编码器直接生成满足用户兴趣的完整产品列表的方法，相比于传统文档排名方法，该方法更有效地解决了页面布局和文档相互依赖性造成的偏差。

Mar, 2018

快速高效的垒位策略优化：超越普拉基特–卢斯模型

大规模机器学习系统的一个关键组成部分是返回选项列表；这篇论文在给定任意奖励函数的情况下，通过在决策函数上应用一种新的松弛技术，提出了一种简单而高效的学习算法来优化这些大规模决策系统，能够扩展到庞大的动作空间规模，相比常用的 Plackett-Luce 策略类，证明了该方法的有效性。

Aug, 2023