A/B 测试的复杂性

May, 2014

On the Complexity of A/B Testing

Emilie Kaufmann, Olivier Cappé, Aurélien Garivier

TL;DR该研究提供了一种改进的 A/B 测试性能的分布依赖性下限方法，特别是在高斯分布和伯努利分布下，为固定置信度和固定预算的情况下提供了复杂性的证明和比较，同时还提供了停止规则。

Abstract

a/b testing refers to the task of determining the best option among two alternatives that yield random outcomes. We provide distribution-dependent lower bounds for the performance of a/b testing that improve over

a/b testing distribution-dependent lower bounds gaussian distribution fixed-confidence fixed-budget

发现论文，激发创造

快速可扩展的贝叶斯 AB 测试

通过使用分层贝叶斯估计方法，我们提出一种解决 AB 测试分析中常见限制的解决方案，包括多因素和因素之间的相关性、早期停止的顺序测试和从过去测试中提取综合全球学习的能力。通过数值模拟和大量实际 AB 测试，我们证明了这种方法的实际价值。

Jul, 2023

在线 A/B 测试中未来用户活动的改进预测

在线随机实验和 A/B 测试中，参与者包含率的准确预测是至关重要的，本文提出了一种新颖、直接且可扩展的贝叶斯非参数方法，用于预测在线 A/B 测试中个体接受干预的比率，并展示了其在实验和模拟数据上相对于现有方法的卓越性能。

Feb, 2024

贝叶斯测试中的可选停止：无痛 A/B 测试的连续监测

本文证明了在使用适当停止规则的情况下，贝叶斯检验与连续监控的有效性，并通过具体模拟实例说明了理论结果。文章指出了常见的不良实践，比较了该方法与 NHST 校正，并提供了研究人员和实践者的一般指导方针。

Feb, 2016

基于提升度的排名：大规模 A/B 测试的成本效益方法

开发了一个决策理论框架，通过实验性贝叶斯解决方法，使用贪婪背包算法构建了一个基于贝叶斯规则的正当决策方法，以控制虚警率，具有大规模测试的有效性和优越性。应用实验确认了该方法的有限样本有效性，并讨论了在实际优化实验中的应用。

Jul, 2024

始终有效推论：将序列分析引入 A/B 测试

本研究提出一种始终有效的 p-value 和置信区间定义方法，以允许用户在进行 A/B 测试时不断地监控样本大小并快速利用已有数据时提供有效的统计推断。同时，该模型还允许实现基于用户定制的修改测试，适当地权衡了样本大小和功率之间的关系，提供了多重假设检验控制。

Dec, 2015

短时、高容量的多臂 / 波段测试

现代平台利用随机实验从给定的项目集（“处理”）中进行明智决策。本研究探讨了一种贝叶斯多次播放自助游问题，涵盖了具有高容量短寿命项目的多元测试（或 “多个 A/B 测试”）问题的关键特点。通过大规模领域实验证明，我们的策略比平台当前的推荐系统在总持续时间上提升了 4.32％，点击次数上提升了 7.48％。

Dec, 2023

图形群集随机化：网络暴露于多个宇宙

该研究提出了一种利用图聚类进行平均处理效应分析的新方法，包括确定被称作网络曝光的个体的图论条件，并使用聚类随机化算法计算每个顶点在多种曝光情况下的概率，并使用 Horvitz-Thompson 估计量提供无偏的效应估计。同时，该研究还展示了正确聚类随机化可以大大降低在干扰下实验中平均处理效应的估计方差。

May, 2013

在线 FDR 控制下 Multi-A/B 测试框架

提出了一种用最佳臂多臂老虎机 (MAB) 的连续监控替代 A/B 测试的新框架，利用在线虚警率控制算法和顺序 p 值，同时实现了样本优化、强大的能力和低虚假发现率 (FDR)。

Jun, 2017

基于动态控制匹配的大规模自适应测试验证

本文提出了一种在动态同时运行多个测试并持续适应的条件下，使用匹配的合成控制组来分离各种测试因果效应的方法，以应对现代企业对 A/B 测试的需要。

May, 2023

提高在线实验效率的比例指标方差减少

在这项工作中，我们成功地将方差缩减技术应用于一个大规模的短视频平台 ShareChat 上的比率指标。我们的实证结果表明，在 77% 的情况下，我们可以提高 A/B 测试的置信水平，或者以 30% 的数据点减少保持相同的置信水平。重要的是，我们表明，在回归中包含尽可能多的协变量的常见方法是适得其反的，强调基于梯度提升决策树预测器的控制变量是最有效的。我们讨论了在大规模实施这些方法的可行性，并展示了它们带来的成本降低。

Jan, 2024