使用顺序奖励交互的对比评估编号推荐

Jul, 2020

使用顺序奖励交互的对比评估编号推荐

Counterfactual Evaluation of Slate Recommendations with Sequential Reward Interactions

James McInerney, Brian Brost, Praveen Chandar, Rishabh Mehrotra, Ben Carterette

TL;DR该研究提出了一种图形假设的因果关系方法，以重新加权日志策略中的奖励，从而近似于目标策略下的奖励和，以解决串行互动推荐问题。在模拟和实际推荐系统中进行的广泛实验表明，该方法在偏差和数据效率方面优于现有方法。

Abstract

Users of music streaming, video streaming, news recommendation, and e-commerce services often engage with content in a sequential manner. Providing and evaluating good sequences of recommendations is therefore a central problem for these services. Prior reweighting-based counterfactual

sequential interactions recommendation counterfactual estimation causal relationships rewards

发现论文，激发创造

基于非当前策略的推荐策略评估

本文研究了基于上下文的推荐策略（例如排名）的评估方法，在组合赌博技术的基础上引入了一种新的实用估计量，该方法可以使用已记录的数据估计政策的绩效，经过全面的实证评估，我们的估计器在多种设置下都很准确，包括在学习排序任务中作为子程序，我们导出了我们的估计器无偏的条件，这些条件比之前的推荐评估启发式要弱，并在实验中比参数方法具有更小的偏差，即使这些条件被违反。最后，我们的理论和实验也表明，与一般的无偏估计相比，所需的数据量呈指数级节约。

May, 2016

推荐系统的对抗性反事实学习和评估

本论文提出了一种基于极小值 - 最大值经验风险的新型推荐算法，该算法使用属于敌对领域的候选模型对反驳所述推荐模型中的潜在暴露机制的对手进行了建模，并使用模拟研究验证了此方法在推荐设置的不同方面的优越性。

Nov, 2020

将奖励与排名信号结合的瓦片推荐

本文提出了几种贝叶斯模型，使用奖励信号、排名信号或两者结合的方法进行非个性化的推荐。通过分析实验结果，证明全模型在产品数量增加或画板大小增加时，可以获得显著的性能提升。

Jul, 2021

基于分布式的离线策略评估：面向推荐系统的多项式建议

提出了一种估计多个物品推荐策略的完整离线性能分布的估计器，并确定了估计器无偏且一致的条件。通过在合成数据和基于真实世界数据（MovieLens-20M）构建的推荐模拟器上进行实证验证，结果表明相比以前的工作，在各种推荐类型的情况下，估计方差显著减小，并且样本效率提高。

Aug, 2023

考虑后果的顺序反事实生成

本文提出了一种基于遗传算法的多目标优化方法，用于解决顺序反事实生成问题。实验结果表明，相比现有的最优方法，该方法生成的解决方案成本更低，更高效，并为用户提供了多种选择。

Apr, 2021

通过结构对照推断实现费用效益的激励分配

针对现代市场营销中的一个实际问题，我们提出了一种新的方法来解决策略优化问题，并构建了一种带约束的反事实策略优化模型。我们将奖励估计问题作为带有附加结构的域适应问题，并使用估计器进行带约束优化策略。我们证明了我们的估计程序具有理论误差界，并且我们在合成和真实数据集上证明了该方法明显改善。

Feb, 2019

CauseRec: 序列推荐的反事实用户序列合成

通过模拟反事实数据分布，提出了一种称为 CauseRec 的框架，其可以学习准确和稳健的用户表示，从而避免用户交互记录中的噪声和稀疏性导致的不稳定系统。

Sep, 2021

Slate 离策略评估的控制变量

本文研究了具有多维动作，即石板的批量上下文强化学习的现实场景 —— 推荐系统和用户界面优化 —— 中的离线策略评估问题。通过控制变量，我们考虑了一类包括伪逆估计器（PI estimator）和（渐近地）自归一化 PI 估计器在内的无偏估计器，通过优化这一类得到的新估计量具有比 PI 和自归一化 PI 估计量更好的风险收敛性。真实世界的推荐数据和合成数据的实验验证了这些改进的实际效果。

Jun, 2021

一个通用的神经因果模型用于交互推荐

通过建立可学习的结构因果模型，并使用古贝尔最大函数作为结构约束，应用增强优化和古贝尔 - Softmax 作为权衡手段来实现反事实一致性，从而减轻观察数据的幸存者偏差问题。

Oct, 2023

使用门控循环单元和汤普森抽样的动态石板推荐

通过建立一种基于变分贝叶斯递归神经网络的推荐系统，利用用户和网络交互的时间序列数据，自适应地为用户提供适宜的内容，同时引入一种层级先验以及组内成员关系考虑的项参数学习方法，结合多臂老虎机策略以及 slate Thompson Sampling 算法优化推荐效果，并在在线实验和来自挪威 FINN.no 平台的离线数据测试中验证了该方法的有效性。

Apr, 2021