离线推荐系统评估指南
本文证明运行基准测试是困难的,并展示了在两个广泛研究的数据集上的问题,Movielens 10M 的基准测试报告的结果亚优,而对基线的细致设置可以改善结果并超越任何新提出的方法,Netflix Prize 社区需要巨大的努力才能获得简单方法的高质量结果,研究论文的实证研究结果是否可靠需要在经过了研究社区的细致调整的标准基准测试上进行。
May, 2019
通过在六个受控的模拟环境中对 11 个推荐系统进行评估,研究离线度量是否能够预测在线性能,在观察到离线度量在一定范围内与在线性能相关的同时,还发现离线性能的提高会导致在线性能的收益递减,同时观察到推荐系统的排名取决于初始离线数据量以及探索策略的添加策略的有效性高度依赖推荐算法。
Nov, 2020
我们的研究目的是调查和比较离线评估指标的在线表现。我们表明,在评估过程中对热门商品进行惩罚,并考虑交易时间能够显著提高我们选择最佳推荐模型的能力。我们的结果经过五个大规模真实推荐数据的平均处理,旨在帮助学术界更好地理解离线评估和更贴近推荐系统实际应用的优化标准。
Aug, 2023
本研究介绍了一种基于模型无关和模型相关超因素的推荐系统评估方法。研究通过全面回顾 141 篇发表在 2017-2020 年的顶级会议论文,系统总结并分析了影响推荐性能的超因素,并针对 10 种推荐算法和 6 种数据集进行了实验验证,最终建立了一个基准系统供后续研究参考。
Jun, 2022
该论文研究了在在线环境中无需探索的情况下,从已记录的反馈中学习互动推荐系统的问题,并提出了一种通用的离线强化学习框架用于推荐,可以通过最大化累积用户奖励来解决问题。为了更有效地进行离线学习,我们提出了五种方法来最小化记录策略和推荐策略之间的分布不匹配:支持约束、监督正则化、策略约束、双重约束和奖励外推。我们在两个公开的现实世界数据集上进行了广泛的实验,证明了所提出的方法在推荐方面相对于现有的监督学习和强化学习方法具有优越的性能。
Oct, 2023
本文对推荐系统离线评估中的数据泄漏问题进行了全面的分析,并通过实验表明,数据泄漏确实会影响模型的推荐准确性,提出了一种时间轴方案来评估推荐系统,以更加真实地模拟离线环境。
Oct, 2020
本文介绍了基于历史数据的线下评估方法,计算新推荐系统版本可能带来的收益提升,提供对实际环境下偏差建模的反事实估计量的变量,通过在线广告个性化产品推荐引起商业指标相关性的商业实验来检验这些估计值。
Jan, 2018
该研究综述了利用离线强化学习应对推荐系统中数据效率低下的问题,着重介绍了现有文献在该领域的研究成果,同时强调了该领域面临的挑战、机遇和未来研究方向。
Aug, 2023
研究推荐系统中个性化排序算法的设计,近年来基于深度学习(神经网络)技术的方法在文献中占主导地位。本研究通过重新实验验证最近基于协作过滤的神经网络推荐方法的结果,发现其中 11 种方法在概念上简单的最近邻启发式方法表现更好,计算复杂的神经网络方法并没有明显的优势。同时,发现当今研究实践中存在普遍问题,可能导致该领域的停滞。
Nov, 2019