无法实验时的自适应试验

Jun, 2024

Adaptive Experimentation When You Can't Experiment

Yao Zhao, Kwang-Sung Jun, Tanner Fiez, Lalit Jain

TL;DR本文介绍了混淆纯探索迁移线性赌博问题（ exttt{CPET-LB}）。作为一个动机性例子，通常在线服务不能直接将用户分配到特定的控制组或处理组，这可能是出于商业或实际原因。在这些设置中，简单地比较处理组和控制组（可能由自我选择引起）可能导致对潜在处理效果的有偏估计。相反，在线服务可以采用适当的随机鼓励来激励用户参与特定的处理。我们的方法提供了一种自适应的实验设计方法，用于学习在这种鼓励设计中表现最佳的处理。我们考虑了一个更一般的由线性结构方程所捕获的底层模型，并在这种设置下制定了纯探索线性赌博问题。尽管在标准自适应实验设计设置中已经对纯探索问题进行了广泛研究，但我们相信这是首次在一个混淆了噪声的设置下进行研究。文章提出了一种使用实验设计方法结合一种新颖的有限时间置信区间的消除算法，该算法在仪器变量估计器的样本复杂性上界几乎与最小极小界相匹配。最后，我们进行了实验证明了我们方法的有效性。

Abstract

This paper introduces the \emph{confounded pure exploration transductive linear bandit} (\texttt{cpet-lb}) problem. As a motivating example, often online services cannot directly assign users to specific control