实验平台遇上强化学习：用贝叶斯序贯决策方法进行连续监控

Apr, 2023

实验平台遇上强化学习：用贝叶斯序贯决策方法进行连续监控

Experimentation Platforms Meet Reinforcement Learning: Bayesian Sequential Decision-Making for Continuous Monitoring

Runzhe Wan, Yu Liu, James McQueen, Doug Hains, Rui Song

TL;DR本文介绍了亚马逊公司开发的基于贝叶斯最优连续监控框架，通过强化学习算法发展一种统一的效用函数来控制企业机会成本的最优策略，并使用大规模的元分析验证与已有方法相比的有效性。

Abstract

With the growing needs of online a/b testing to support the innovation in industry, the opportunity cost of running an experiment becomes non-negligible. Therefore, there is an increasing demand for an efficient continuous monitoring service that allows early stopping when appropriate.

a/b testing continuous monitoring service bayesian optimal sequential decision making reinforcement learning meta-analysis

发现论文，激发创造

虚拟与现实：贝叶斯优化在强化学习中平衡模拟与实验

本文提出了一种基于贝叶斯优化算法的方法，通过利用来自仿真的先验知识，自动将仿真数据和实验数据相结合以更有效地找到良好的控制策略，从而减少实验次数和成本。

Mar, 2017

基于贝叶斯实验设计的因果决策实际测试与上下文优化的高效性检验

本文提出了一种用于评估和改进因果机器学习模型下上下文治疗分配决策的数据采集框架，采用贝叶斯实验设计用于数据高效率评估和改进过去治疗分配的遗憾。与 A / B 测试等方法相比，我们的方法通过引入基于信息的设计目标来避免分配已知高度次优的治疗方法，同时进行探索以收集相关信息。我们的方法适用于离散和连续治疗，与其他基线相比，模拟研究表明了我们提出的信息理论方法具有更好的性能。

Jul, 2022

低成本在线决策：一种组合多臂赌博机方法

本文基于组合多臂赌博机，考虑了测试成本，提供了一种新的成本高效的在线决策框架，并通过后验抽样或 BayesUCB 进行探索。我们对该框架进行了严格的理论分析，并提供了多个实验结果，证明了它在实际问题中的适用性。

Aug, 2023

风险敏感和鲁棒的基于模型的强化学习和规划

本研究主要关注序列决策算法中的不确定性和风险问题，通过探索规划和强化学习两种方法，尤其是面向基于模型算法的研究，旨在缓解 epistemic 和 aleatoric 不确定性问题。

Apr, 2023

通过基于观察数据的模拟和延迟奖励进行销售渠道优化：LinkedIn 案例研究

本文针对 LinkedIn 的销售渠道选择优化问题，通过离散时间仿真实验发现，在考虑资源分配随机性时，相对于基于规则或监督学习的策略，基于多臂老虎机算法的策略（LinUCB）能够实现互联网广告的有效增量提升。

Sep, 2022

使用机器学习设计最优行为实验

本研究提供了有关利用 BOED 及机器学习寻找可为任何类型的可模拟数据的模型提供最佳实验的教程，以及如何使用此过程的副产品快速、简便地评估模型及其参数与真实实验数据的方法，并利用模拟和真实实验验证了所提出方法的有效性。

May, 2023

贝叶斯测试中的可选停止：无痛 A/B 测试的连续监测

本文证明了在使用适当停止规则的情况下，贝叶斯检验与连续监控的有效性，并通过具体模拟实例说明了理论结果。文章指出了常见的不良实践，比较了该方法与 NHST 校正，并提供了研究人员和实践者的一般指导方针。

Feb, 2016

在未观测到的异质性下进行具有专家示范的顺序决策

我们研究了在线顺序决策问题，给出了专家根据未观察到的上下文信息做出决策的辅助演示。我们将问题建模为一个具有未知任务分布和贝叶斯遗憾最小化目标的零样本元强化学习设置，其中未观察到的任务被编码为具有未知先验的参数。我们提出了 ExPerior 算法，这是一种非参数的经验贝叶斯方法，利用了最大熵原理，在学习者的决策问题上建立了一个信息丰富的先验。我们证明了我们的策略超越了现有的多臂赌博机和强化学习的行为克隆和在线算法，展示了我们的方法在不同的决策设置中利用专家演示的实用性。

Apr, 2024

基于数据驱动的连续学习框架，以加速和优化多目标制造决策

提出了一种基于数据驱动的贝叶斯优化框架，利用顺序学习来有效优化具有多个相互冲突目标的复杂系统，其中使用一种新的度量来评估多目标数据驱动优化方法的质量和生成所需的数据量，并在制造数据集上进行了评估，结果表明，该算法可以在处理更少的数据的情况下实现实际 Pareto 前沿，从而可以降低成本和时间。

Apr, 2023

大型结构化领域中的基于模型的贝叶斯强化学习

本文提出一种基于模型的 Bayesian 强化学习框架，采用因式表示和在线规划技术来提高可扩展性，结合学习动态系统结构和参数，同时制定（近）最优动作序列。

Jun, 2012