推荐系统评估技术综述

Dec, 2023

A Comprehensive Survey of Evaluation Techniques for Recommendation Systems

Aryan Jadon, Avinash Patil

TL;DR本文详细介绍了推荐系统的评估方法，包括内容推荐和协同过滤机制的相似度指标，候选生成度量，预测指标，排名指标以及与经济目标相关的商业指标。同时强调了这些指标的上下文应用和相互依赖，提出了一种选择和解释这些指标的框架，以促进推荐系统的改进和商业目标的实现。

Abstract

The effectiveness of recommendation systems is pivotal to user engagement and satisfaction in online platforms. As these recommendation systems increasingly influence user choices, their →

recommendation systems evaluation metrics system performance business goals

发现论文，激发创造

推荐系统简介

本文综述了个性化推荐及推荐系统的经典算法，评估方式，以及最近研究的方向：基于会话的推荐、推荐系统中的偏差问题以及实际应用的影响和价值。

Feb, 2023

可解释推荐评估的综合调查：从 “为什么” 角度衡量推荐系统

本文综述了可解释推荐的评估策略，提出了按照评估方法和角度进行分类的不同分类方法，并分析了现有评估方法的（不）优点并提供了选取它们的一系列指南，并根据来自 IJCAI，AAAI，TheWebConf，Recsys，UMAP 和 IUI 等顶尖会议的 100 多篇论文提出了其完整的总结，最终旨在提供关于可解释推荐的全面而清晰的评估综述。

Feb, 2022

基于用户的推荐系统流行度偏差评估

本论文提出了一种新的度量方法以及一种后征的算法来缓解推荐系统中热门偏执的问题，该方法在不同用户的角度下提供了更准确的度量，实验结果表明现有的解决方案还不能很好地处理用户对热门推荐物品的容忍度。

Mar, 2021

为优化推荐系统的迭代速度而导航评估漏斗

提出了一个简化推荐系统评估漏斗的新框架，通过分解成功定义为构建高效评估漏斗提供指导，并概述了最常见和有用的评估方法，讨论了它们的优缺点及相互补充的关系，最后给出了如何设计高效的推荐系统评估过程的建议。

Apr, 2024

为推荐系统构建离线评估的时序和无偏倚的流行度离线指标

我们的研究目的是调查和比较离线评估指标的在线表现。我们表明，在评估过程中对热门商品进行惩罚，并考虑交易时间能够显著提高我们选择最佳推荐模型的能力。我们的结果经过五个大规模真实推荐数据的平均处理，旨在帮助学术界更好地理解离线评估和更贴近推荐系统实际应用的优化标准。

Aug, 2023

动态推荐系统中的流行度偏差度量

量化推荐系统中的偏见和偏差是重要的，本文提出了四个度量指标来衡量受时间和敏感用户组影响的推荐系统中的流行度偏差，并展示了这些度量指标综合使用时能够全面了解敏感群体之间的不公平对待逐渐增加的情况。

Oct, 2023

我们要优化什么？基于人的评估的深度学习推荐系统

我们开发了一个坚固的人本评估框架，该框架结合了七个不同的评估指标，用于评估五个最近开源的深度学习模型生成的推荐的质量。我们的评估数据集包含了离线基准数据和从 445 名真实用户收集的个性化在线推荐反馈。我们发现，（1）不同的深度学习模型在我们测试的多维度指标上有不同的优势和劣势；（2）用户通常希望在推荐中将准确性与至少一个其他人类价值相结合；（3）不同价值的组合程度需要仔细实验以达到用户偏好水平。

Jan, 2024

优化奖励的推荐系统的离线评估：仿真案例

本文介绍了推荐系统等互动应用中在线评估方法的重要性，分析了离线评估方法的特点，提出了使用基于模拟的比较作为评估手段的优点。

Sep, 2022

推荐系统技术及电子商务领域综述

本研究回顾了推荐系统在电子商务、电子旅游、电子资源、电子政务、电子学习和电子图书馆等领域的不同技术和发展，并通过分析最近的研究，提供了当前发展的详细概述，识别了推荐系统中的现有困难，为实践者和研究人员提供了必要的指导和见解。

Aug, 2022

推动基线推荐系统的极限：结合意见挖掘和信息检索技术的综述

本文综述了混合推荐系统的新模型与架构，并识别了每种模型的优缺点及其具体应用场景。

May, 2022