基于采样的物品推荐评估指标

Dec, 2019

Evaluation Metrics for Item Recommendation under Sampling

Steffen Rendle

TL;DR本文探讨了样本评估指标在物品推荐任务中的应用，进一步证明了样本评估指标与精确评估指标不一致，评估结果也具有不确定性，不建议使用在评估不同算法的优劣上。

Abstract

The task of item recommendation requires ranking a large catalogue of items given a context. item recommendation algorithms are evaluated using ranking metrics that depend on the positions of relevant items. To s

item recommendation ranking metrics sampled metrics algorithm comparison auc metric

发现论文，激发创造

神经网络序列推荐模型评估的抽样策略案例研究

本研究针对目前流行的序列推荐模型的负样本采样方法进行重新评估，发现流行的负样本采样方法并不能保证与完整数据集的排名结果一致，建议结合多种评估策略进行排名比较。

Jul, 2021

推荐系统评估技术综述

本文详细介绍了推荐系统的评估方法，包括内容推荐和协同过滤机制的相似度指标，候选生成度量，预测指标，排名指标以及与经济目标相关的商业指标。同时强调了这些指标的上下文应用和相互依赖，提出了一种选择和解释这些指标的框架，以促进推荐系统的改进和商业目标的实现。

Dec, 2023

基于用户的推荐系统流行度偏差评估

本论文提出了一种新的度量方法以及一种后征的算法来缓解推荐系统中热门偏执的问题，该方法在不同用户的角度下提供了更准确的度量，实验结果表明现有的解决方案还不能很好地处理用户对热门推荐物品的容忍度。

Mar, 2021

协同推荐中的流行度去偏差：连接用户和物品视角

研究了推荐系统中流行项和小众项之间存在的偏见问题，并提出了两种度量这种偏见的新方法，同时也提出了一种内部处理方法来减少这种偏见。实验证明，该方法可显著提高推荐质量。

Jun, 2020

为推荐系统构建离线评估的时序和无偏倚的流行度离线指标

我们的研究目的是调查和比较离线评估指标的在线表现。我们表明，在评估过程中对热门商品进行惩罚，并考虑交易时间能够显著提高我们选择最佳推荐模型的能力。我们的结果经过五个大规模真实推荐数据的平均处理，旨在帮助学术界更好地理解离线评估和更贴近推荐系统实际应用的优化标准。

Aug, 2023

一次一个：用于微观层面的元学习推荐系统 —— 推荐算法的选择

本研究提出了基于元学习的推荐算法选择方法，并对 MovieLens 数据集进行了评估，结果表明每个用户 - 物品对应的最佳算法是不同的，使用基于每个实例的元学习算法可以显著提高推荐精度。

May, 2018

协同过滤预测算法的实证分析

该文章描述了几种算法来实现协同过滤或推荐系统，并使用不同的评估方法比较了它们的预测准确性。结果表明，在大多数情况下，每个节点具有决策树的贝叶斯网络和相关性方法优于贝叶斯聚类和向量相似度方法。

Jan, 2013

关于 Top-K 推荐评估的抽样方法

研究了采样与全局命中率的关系，提出通过对齐样本命中率和全局命中率进行对应函数 $f$ 的映射，可以准确近似全局命中率的采样命中率，从而在推荐算法中得到一致正确的预测。

Jun, 2021

动态推荐系统中的流行度偏差度量

量化推荐系统中的偏见和偏差是重要的，本文提出了四个度量指标来衡量受时间和敏感用户组影响的推荐系统中的流行度偏差，并展示了这些度量指标综合使用时能够全面了解敏感群体之间的不公平对待逐渐增加的情况。

Oct, 2023

基于非当前策略的推荐策略评估

本文研究了基于上下文的推荐策略（例如排名）的评估方法，在组合赌博技术的基础上引入了一种新的实用估计量，该方法可以使用已记录的数据估计政策的绩效，经过全面的实证评估，我们的估计器在多种设置下都很准确，包括在学习排序任务中作为子程序，我们导出了我们的估计器无偏的条件，这些条件比之前的推荐评估启发式要弱，并在实验中比参数方法具有更小的偏差，即使这些条件被违反。最后，我们的理论和实验也表明，与一般的无偏估计相比，所需的数据量呈指数级节约。

May, 2016