Apr, 2023

实验平台遇上强化学习:用贝叶斯序贯决策方法进行连续监控

TL;DR本文介绍了亚马逊公司开发的基于贝叶斯最优连续监控框架,通过强化学习算法发展一种统一的效用函数来控制企业机会成本的最优策略,并使用大规模的元分析验证与已有方法相比的有效性。