推荐系统离线评估中数据泄露的关键研究
我们的研究目的是调查和比较离线评估指标的在线表现。我们表明,在评估过程中对热门商品进行惩罚,并考虑交易时间能够显著提高我们选择最佳推荐模型的能力。我们的结果经过五个大规模真实推荐数据的平均处理,旨在帮助学术界更好地理解离线评估和更贴近推荐系统实际应用的优化标准。
Aug, 2023
通过在六个受控的模拟环境中对 11 个推荐系统进行评估,研究离线度量是否能够预测在线性能,在观察到离线度量在一定范围内与在线性能相关的同时,还发现离线性能的提高会导致在线性能的收益递减,同时观察到推荐系统的排名取决于初始离线数据量以及探索策略的添加策略的有效性高度依赖推荐算法。
Nov, 2020
本研究提出了四个关于推荐系统研究的大问题,包括不确定性估计、泛化、超参数优化和数据集预处理,并结合 TrainRec 的实验,得出了一组指导方针,建议未来的研究应该遵循这些指导方针进行评估。
Nov, 2022
本研究探讨了模型提取是否可以用于 “窃取” 顺序推荐系统的权重以及针对此类攻击对受害者可能带来的潜在威胁。我们认为,由于用于训练它们的特定自回归模型,顺序推荐系统容易受到攻击。我们在无数据访问情况下,通过有限预算模拟数据生成和知识蒸馏提出了一种基于 API 的模型提取方法,以研究最先进的顺序推荐模型在此类攻击下的脆弱性。通过两阶段攻击,即模型提取和下游攻击,我们发现黑盒顺序推荐模型易受白盒顺序推荐器生成的对抗样本干扰并受到污染。
Sep, 2021
通过分析 session-based 推荐任务的唯一特性,对倾向性进行独特计算,研究在不同数据集上的倾向性分布和不同分层技术,在推荐系统的大规模离线评估中取得了令人期待的结果。
Dec, 2023
本研究从用户可控性的角度,通过可达性理论,提出了一种用于检测顶部线性推荐模型的计算有效的审核方法,并描述了模型复杂度与用户控制推荐工作的关系,同时探讨了使用领先的电影评级数据集训练的现有模型的实证调查。
Dec, 2019
本文介绍了基于历史数据的线下评估方法,计算新推荐系统版本可能带来的收益提升,提供对实际环境下偏差建模的反事实估计量的变量,通过在线广告个性化产品推荐引起商业指标相关性的商业实验来检验这些估计值。
Jan, 2018