本研究提出新的多重交错方法以更好地评估线上排名算法,并在实证实验中证明,该方法相较于现有方法可显著减小误差,最高可降低 50%。
Aug, 2016
本研究对 LTR 领域的两种方法进行了第一次直接比较。研究结果表明,这两种方法在不同实验条件下性能存在显著差异,对于选择哪一种方法,需要考虑选择偏差、位置偏差和交互噪声的程度。
Jul, 2019
本文提出了一种评估算法来预测历史日志数据中排名列表上的点击数,并使用用户与项目列表的交互模型来构建统计效率更高的估计器。实验结果表明,相对于先前的估计器,该算法具有更高的性能表现。
Apr, 2018
提出了一个简化推荐系统评估漏斗的新框架,通过分解成功定义为构建高效评估漏斗提供指导,并概述了最常见和有用的评估方法,讨论了它们的优缺点及相互补充的关系,最后给出了如何设计高效的推荐系统评估过程的建议。
Apr, 2024
通过介入感知估计器建议一种优化基于用户交互的排名系统的新方法,以消除位置偏差、信任偏差和项目选择偏差。实验结果表明,相比现有方法,该新方法可以更有效地受益于在线干预。
Dec, 2020
本文介绍了基于历史数据的线下评估方法,计算新推荐系统版本可能带来的收益提升,提供对实际环境下偏差建模的反事实估计量的变量,通过在线广告个性化产品推荐引起商业指标相关性的商业实验来检验这些估计值。
Jan, 2018
通过处理搜索结果展示方式,消除展示偏见获取更客观的用户隐式反馈,取得更佳的排序效果。
May, 2006
本文提出了一种在动态同时运行多个测试并持续适应的条件下,使用匹配的合成控制组来分离各种测试因果效应的方法,以应对现代企业对 A/B 测试的需要。
May, 2023
研究在机器学习中,基于两两比较对一组 n 个项目进行排名的问题,提出了一种基于置信区间的活跃排名算法,通过近似排序来减少比较次数。
通过使用分层贝叶斯估计方法,我们提出一种解决 AB 测试分析中常见限制的解决方案,包括多因素和因素之间的相关性、早期停止的顺序测试和从过去测试中提取综合全球学习的能力。通过数值模拟和大量实际 AB 测试,我们证明了这种方法的实际价值。
Jul, 2023