现代平台利用随机实验从给定的项目集(“处理”)中进行明智决策。本研究探讨了一种贝叶斯多次播放自助游问题,涵盖了具有高容量短寿命项目的多元测试(或 “多个 A/B 测试”)问题的关键特点。通过大规模领域实验证明,我们的策略比平台当前的推荐系统在总持续时间上提升了 4.32%,点击次数上提升了 7.48%。
Dec, 2023
在线随机实验和 A/B 测试中,参与者包含率的准确预测是至关重要的,本文提出了一种新颖、直接且可扩展的贝叶斯非参数方法,用于预测在线 A/B 测试中个体接受干预的比率,并展示了其在实验和模拟数据上相对于现有方法的卓越性能。
Feb, 2024
本文针对多智能体环境下自主驾驶车辆行驶安全和效率平衡问题,提出了以自我博弈为基础的对抗生成网络和分布式鲁棒型优化方法,实验结果显示我们的方法能够在自主驾驶赛车中取得较好的性能和鲁棒性。
Mar, 2020
决策流程中的权衡、不确定性量化方法、风险控制、数值实验
Mar, 2024
本文介绍了亚马逊公司开发的基于贝叶斯最优连续监控框架,通过强化学习算法发展一种统一的效用函数来控制企业机会成本的最优策略,并使用大规模的元分析验证与已有方法相比的有效性。
Apr, 2023
本文介绍了一种适用于满足延迟目标的自适应实验解决方案,通过在 delayed binary feedback objectives 之前估计实际底层目标来动态分配变体,并显示了该方法相较其他方法更为高效,而且在不同环境下很稳健。此外,我们还描述了一个由该算法驱动的实验产品,该产品已经部署在一个大型的电子商务公司 JD.com 的在线实验平台上。
Feb, 2022
提出了一种用最佳臂多臂老虎机 (MAB) 的连续监控替代 A/B 测试的新框架,利用在线虚警率控制算法和顺序 p 值,同时实现了样本优化、强大的能力和低虚假发现率 (FDR)。
Jun, 2017
通过将贝叶斯优化方法与严格的风险控制程序相结合,我们寻找一种满足用户指定风险限制的配置,同时在其他冲突指标方面也具有有用性,并展示了在多种任务中的有效性。
介绍了一种框架,用于通过多重假设检验重新定义风险控制问题来校准机器学习模型,从而保证其预测结果符合明确的统计保证。
Oct, 2021
开发了一个决策理论框架,通过实验性贝叶斯解决方法,使用贪婪背包算法构建了一个基于贝叶斯规则的正当决策方法,以控制虚警率,具有大规模测试的有效性和优越性。应用实验确认了该方法的有限样本有效性,并讨论了在实际优化实验中的应用。
Jul, 2024