Apr, 2023
实验平台遇上强化学习:用贝叶斯序贯决策方法进行连续监控
Experimentation Platforms Meet Reinforcement Learning: Bayesian Sequential Decision-Making for Continuous Monitoring
Runzhe Wan, Yu Liu, James McQueen, Doug Hains, Rui Song
TL;DR本文介绍了亚马逊公司开发的基于贝叶斯最优连续监控框架,通过强化学习算法发展一种统一的效用函数来控制企业机会成本的最优策略,并使用大规模的元分析验证与已有方法相比的有效性。