平衡风险和回报：自动分阶段发布策略

May, 2023

平衡风险和回报：自动分阶段发布策略

Balancing Risk and Reward: An Automated Phased Release Strategy

Yufan Li, Jialiang Mao, Iavor Bojinov

TL;DR这篇论文提出了通过一系列的 A/B 实验和自适应 Bayesian 方法来保证控制风险和最大化增长速度的策略，该方法被称为 batched bandit 问题，其中关键因素是实验预算。

Abstract

phased releases are a common strategy in the technology industry for gradually releasing new products or updates through a sequence of a/b tests in which the number of treated units gradually grows until full dep

phased releases a/b tests batched bandit problem bayesian approach experimental budget

发现论文，激发创造

短时、高容量的多臂 / 波段测试

现代平台利用随机实验从给定的项目集（“处理”）中进行明智决策。本研究探讨了一种贝叶斯多次播放自助游问题，涵盖了具有高容量短寿命项目的多元测试（或 “多个 A/B 测试”）问题的关键特点。通过大规模领域实验证明，我们的策略比平台当前的推荐系统在总持续时间上提升了 4.32％，点击次数上提升了 7.48％。

Dec, 2023

在线 A/B 测试中未来用户活动的改进预测

在线随机实验和 A/B 测试中，参与者包含率的准确预测是至关重要的，本文提出了一种新颖、直接且可扩展的贝叶斯非参数方法，用于预测在线 A/B 测试中个体接受干预的比率，并展示了其在实验和模拟数据上相对于现有方法的卓越性能。

Feb, 2024

FormulaZero：通过离线人口合成实现分布式鲁棒在线适应

本文针对多智能体环境下自主驾驶车辆行驶安全和效率平衡问题，提出了以自我博弈为基础的对抗生成网络和分布式鲁棒型优化方法，实验结果显示我们的方法能够在自主驾驶赛车中取得较好的性能和鲁棒性。

Mar, 2020

分布自由预测中多个风险之间的数据自适应权衡

决策流程中的权衡、不确定性量化方法、风险控制、数值实验

Mar, 2024

实验平台遇上强化学习：用贝叶斯序贯决策方法进行连续监控

本文介绍了亚马逊公司开发的基于贝叶斯最优连续监控框架，通过强化学习算法发展一种统一的效用函数来控制企业机会成本的最优策略，并使用大规模的元分析验证与已有方法相比的有效性。

Apr, 2023

延迟二元反馈的自适应实验

本文介绍了一种适用于满足延迟目标的自适应实验解决方案，通过在 delayed binary feedback objectives 之前估计实际底层目标来动态分配变体，并显示了该方法相较其他方法更为高效，而且在不同环境下很稳健。此外，我们还描述了一个由该算法驱动的实验产品，该产品已经部署在一个大型的电子商务公司 JD.com 的在线实验平台上。

Feb, 2022

在线 FDR 控制下 Multi-A/B 测试框架

提出了一种用最佳臂多臂老虎机 (MAB) 的连续监控替代 A/B 测试的新框架，利用在线虚警率控制算法和顺序 p 值，同时实现了样本优化、强大的能力和低虚假发现率 (FDR)。

Jun, 2017

通过导引贝叶斯优化选择风险控制模型

通过将贝叶斯优化方法与严格的风险控制程序相结合，我们寻找一种满足用户指定风险限制的配置，同时在其他冲突指标方面也具有有用性，并展示了在多种任务中的有效性。

Dec, 2023

学习再测试：校准预测算法以实现风险控制

介绍了一种框架，用于通过多重假设检验重新定义风险控制问题来校准机器学习模型，从而保证其预测结果符合明确的统计保证。

Oct, 2021

基于提升度的排名：大规模 A/B 测试的成本效益方法

开发了一个决策理论框架，通过实验性贝叶斯解决方法，使用贪婪背包算法构建了一个基于贝叶斯规则的正当决策方法，以控制虚警率，具有大规模测试的有效性和优越性。应用实验确认了该方法的有限样本有效性，并讨论了在实际优化实验中的应用。

Jul, 2024