串行比较效率的理论分析

May, 2023

Theoretical Analysis on the Efficiency of Interleaved Comparisons

Kojiro Iizuka, Hajime Morita, Makoto P. Kato

TL;DR本研究对插值法的效率进行了理论分析，探讨了其在在线评估中的应用，发现当用户依赖于条目的相关性时，插值法的效率高于 A/B 测试，并通过实验结果验证了理论结果与实证结果的一致性。

Abstract

This study presents a theoretical analysis on the efficiency of interleaving, an efficient online evaluation method for rankings. Although interleaving has already been applied to production systems, the source o

interleaving method online evaluation efficiency click models empirical results

发现论文，激发创造

在线排名器评估的改进多交错算法

本研究提出新的多重交错方法以更好地评估线上排名算法，并在实证实验中证明，该方法相较于现有方法可显著减小误差，最高可降低 50%。

Aug, 2016

建模还是干预：从用户交互中比较反事实和在线学习排序

本研究对 LTR 领域的两种方法进行了第一次直接比较。研究结果表明，这两种方法在不同实验条件下性能存在显著差异，对于选择哪一种方法，需要考虑选择偏差、位置偏差和交互噪声的程度。

Jul, 2019

使用点击模型对排名策略进行离线评估

本文提出了一种评估算法来预测历史日志数据中排名列表上的点击数，并使用用户与项目列表的交互模型来构建统计效率更高的估计器。实验结果表明，相对于先前的估计器，该算法具有更高的性能表现。

Apr, 2018

为优化推荐系统的迭代速度而导航评估漏斗

提出了一个简化推荐系统评估漏斗的新框架，通过分解成功定义为构建高效评估漏斗提供指导，并概述了最常见和有用的评估方法，讨论了它们的优缺点及相互补充的关系，最后给出了如何设计高效的推荐系统评估过程的建议。

Apr, 2024

统一在线学习和反事实学习进行排序

通过介入感知估计器建议一种优化基于用户交互的排名系统的新方法，以消除位置偏差、信任偏差和项目选择偏差。实验结果表明，相比现有方法，该新方法可以更有效地受益于在线干预。

Dec, 2020

推荐系统的离线 A/B 测试

本文介绍了基于历史数据的线下评估方法，计算新推荐系统版本可能带来的收益提升，提供对实际环境下偏差建模的反事实估计量的变量，通过在线广告个性化产品推荐引起商业指标相关性的商业实验来检验这些估计值。

Jan, 2018

随机化最小侵入式采集点击记录中的无偏好好处

通过处理搜索结果展示方式，消除展示偏见获取更客观的用户隐式反馈，取得更佳的排序效果。

May, 2006

基于动态控制匹配的大规模自适应测试验证

本文提出了一种在动态同时运行多个测试并持续适应的条件下，使用匹配的合成控制组来分离各种测试因果效应的方法，以应对现代企业对 A/B 测试的需要。

May, 2023

基于配对比较的近似排名

研究在机器学习中，基于两两比较对一组 n 个项目进行排名的问题，提出了一种基于置信区间的活跃排名算法，通过近似排序来减少比较次数。

Jan, 2018

快速可扩展的贝叶斯 AB 测试

通过使用分层贝叶斯估计方法，我们提出一种解决 AB 测试分析中常见限制的解决方案，包括多因素和因素之间的相关性、早期停止的顺序测试和从过去测试中提取综合全球学习的能力。通过数值模拟和大量实际 AB 测试，我们证明了这种方法的实际价值。

Jul, 2023