离线推荐系统评估指南

Nov, 2022

Where Do We Go From Here? Guidelines For Offline Recommender Evaluation

Tobias Schnabel

TL;DR本研究提出了四个关于推荐系统研究的大问题，包括不确定性估计、泛化、超参数优化和数据集预处理，并结合 TrainRec 的实验，得出了一组指导方针，建议未来的研究应该遵循这些指导方针进行评估。

Abstract

Various studies in recent years have pointed out large issues in the offline evaluation of recommender systems, making it difficult to assess whether true progress has been made. However, there has been little research into what set of practices should serve as a starting point during experimentation. In this paper, we examine four larger issues in

recommender system offline evaluation uncertainty estimation hyperparameter optimization dataset pre-processing

发现论文，激发创造

关于基准评估的困难性：推荐系统研究

本文证明运行基准测试是困难的，并展示了在两个广泛研究的数据集上的问题，Movielens 10M 的基准测试报告的结果亚优，而对基线的细致设置可以改善结果并超越任何新提出的方法，Netflix Prize 社区需要巨大的努力才能获得简单方法的高质量结果，研究论文的实证研究结果是否可靠需要在经过了研究社区的细致调整的标准基准测试上进行。

May, 2019

离线指标能否预测推荐系统的在线性能？

通过在六个受控的模拟环境中对 11 个推荐系统进行评估，研究离线度量是否能够预测在线性能，在观察到离线度量在一定范围内与在线性能相关的同时，还发现离线性能的提高会导致在线性能的收益递减，同时观察到推荐系统的排名取决于初始离线数据量以及探索策略的添加策略的有效性高度依赖推荐算法。

Nov, 2020

为推荐系统构建离线评估的时序和无偏倚的流行度离线指标

我们的研究目的是调查和比较离线评估指标的在线表现。我们表明，在评估过程中对热门商品进行惩罚，并考虑交易时间能够显著提高我们选择最佳推荐模型的能力。我们的结果经过五个大规模真实推荐数据的平均处理，旨在帮助学术界更好地理解离线评估和更贴近推荐系统实际应用的优化标准。

Aug, 2023

DaisyRec 2.0: 为严格评估进行推荐基准测试

本研究介绍了一种基于模型无关和模型相关超因素的推荐系统评估方法。研究通过全面回顾 141 篇发表在 2017-2020 年的顶级会议论文，系统总结并分析了影响推荐性能的超因素，并针对 10 种推荐算法和 6 种数据集进行了实验验证，最终建立了一个基准系统供后续研究参考。

Jun, 2022

一个通用的离线强化学习框架用于交互推荐

该论文研究了在在线环境中无需探索的情况下，从已记录的反馈中学习互动推荐系统的问题，并提出了一种通用的离线强化学习框架用于推荐，可以通过最大化累积用户奖励来解决问题。为了更有效地进行离线学习，我们提出了五种方法来最小化记录策略和推荐策略之间的分布不匹配：支持约束、监督正则化、策略约束、双重约束和奖励外推。我们在两个公开的现实世界数据集上进行了广泛的实验，证明了所提出的方法在推荐方面相对于现有的监督学习和强化学习方法具有优越的性能。

Oct, 2023

推荐系统离线评估中数据泄露的关键研究

本文对推荐系统离线评估中的数据泄漏问题进行了全面的分析，并通过实验表明，数据泄漏确实会影响模型的推荐准确性，提出了一种时间轴方案来评估推荐系统，以更加真实地模拟离线环境。

Oct, 2020

推荐系统的离线 A/B 测试

本文介绍了基于历史数据的线下评估方法，计算新推荐系统版本可能带来的收益提升，提供对实际环境下偏差建模的反事实估计量的变量，通过在线广告个性化产品推荐引起商业指标相关性的商业实验来检验这些估计值。

Jan, 2018

优化奖励的推荐系统的离线评估：仿真案例

本文介绍了推荐系统等互动应用中在线评估方法的重要性，分析了离线评估方法的特点，提出了使用基于模拟的比较作为评估手段的优点。

Sep, 2022

离线强化学习在推荐系统中的机遇与挑战

该研究综述了利用离线强化学习应对推荐系统中数据效率低下的问题，着重介绍了现有文献在该领域的研究成果，同时强调了该领域面临的挑战、机遇和未来研究方向。

Aug, 2023

推荐系统研究中可重复性与进展的令人不安的分析

研究推荐系统中个性化排序算法的设计，近年来基于深度学习（神经网络）技术的方法在文献中占主导地位。本研究通过重新实验验证最近基于协作过滤的神经网络推荐方法的结果，发现其中 11 种方法在概念上简单的最近邻启发式方法表现更好，计算复杂的神经网络方法并没有明显的优势。同时，发现当今研究实践中存在普遍问题，可能导致该领域的停滞。

Nov, 2019