A/B 测试的复杂性
通过使用分层贝叶斯估计方法,我们提出一种解决 AB 测试分析中常见限制的解决方案,包括多因素和因素之间的相关性、早期停止的顺序测试和从过去测试中提取综合全球学习的能力。通过数值模拟和大量实际 AB 测试,我们证明了这种方法的实际价值。
Jul, 2023
在线随机实验和 A/B 测试中,参与者包含率的准确预测是至关重要的,本文提出了一种新颖、直接且可扩展的贝叶斯非参数方法,用于预测在线 A/B 测试中个体接受干预的比率,并展示了其在实验和模拟数据上相对于现有方法的卓越性能。
Feb, 2024
本文证明了在使用适当停止规则的情况下,贝叶斯检验与连续监控的有效性,并通过具体模拟实例说明了理论结果。文章指出了常见的不良实践,比较了该方法与 NHST 校正,并提供了研究人员和实践者的一般指导方针。
Feb, 2016
开发了一个决策理论框架,通过实验性贝叶斯解决方法,使用贪婪背包算法构建了一个基于贝叶斯规则的正当决策方法,以控制虚警率,具有大规模测试的有效性和优越性。应用实验确认了该方法的有限样本有效性,并讨论了在实际优化实验中的应用。
Jul, 2024
本研究提出一种始终有效的 p-value 和置信区间定义方法,以允许用户在进行 A/B 测试时不断地监控样本大小并快速利用已有数据时提供有效的统计推断。同时,该模型还允许实现基于用户定制的修改测试,适当地权衡了样本大小和功率之间的关系,提供了多重假设检验控制。
Dec, 2015
现代平台利用随机实验从给定的项目集(“处理”)中进行明智决策。本研究探讨了一种贝叶斯多次播放自助游问题,涵盖了具有高容量短寿命项目的多元测试(或 “多个 A/B 测试”)问题的关键特点。通过大规模领域实验证明,我们的策略比平台当前的推荐系统在总持续时间上提升了 4.32%,点击次数上提升了 7.48%。
Dec, 2023
该研究提出了一种利用图聚类进行平均处理效应分析的新方法,包括确定被称作网络曝光的个体的图论条件,并使用聚类随机化算法计算每个顶点在多种曝光情况下的概率,并使用 Horvitz-Thompson 估计量提供无偏的效应估计。同时,该研究还展示了正确聚类随机化可以大大降低在干扰下实验中平均处理效应的估计方差。
May, 2013
提出了一种用最佳臂多臂老虎机 (MAB) 的连续监控替代 A/B 测试的新框架,利用在线虚警率控制算法和顺序 p 值,同时实现了样本优化、强大的能力和低虚假发现率 (FDR)。
Jun, 2017
本文提出了一种在动态同时运行多个测试并持续适应的条件下,使用匹配的合成控制组来分离各种测试因果效应的方法,以应对现代企业对 A/B 测试的需要。
May, 2023
在这项工作中,我们成功地将方差缩减技术应用于一个大规模的短视频平台 ShareChat 上的比率指标。我们的实证结果表明,在 77% 的情况下,我们可以提高 A/B 测试的置信水平,或者以 30% 的数据点减少保持相同的置信水平。重要的是,我们表明,在回归中包含尽可能多的协变量的常见方法是适得其反的,强调基于梯度提升决策树预测器的控制变量是最有效的。我们讨论了在大规模实施这些方法的可行性,并展示了它们带来的成本降低。
Jan, 2024