批量蒐集资料的推断

Feb, 2020

Inference for Batched Bandits

Kelly W. Zhang, Lucas Janson, Susan A. Murphy

TL;DR本文发展了一种基于批处理数据的自适应数据收集的带状算法推断方法，证明了普通最小二乘估计器在标准的赌臂算法收集数据时不是渐近正常的，提出了批处理OLS估计器，并证明其可以适用于多臂和情境赌臂算法并且对随机变量鲁棒。

Abstract

As bandit algorithms are increasingly utilized in scientific studies, there is an associated increasing need for reliable inference methods based on the resulting adaptively-collected data. In this work, we develop methods for inference regarding the treatment effect on data collected

发现论文，激发创造

基于模拟策略的非珂环境下评估和学习记录型匪徒反馈反馈数据: 通过替代策略减少误差

本文介绍了一种新的名为“最大似然反向倾向评分（MLIPS）”的方法，用于从批量日志二手反馈中学习。与现有方法相比，MLIPS不仅具有渐近无偏性，而且具有更小的均方根误差，表现出更好的性能。

Aug, 2018

基于Bandit反馈的高效反事实学习

本文考虑利用离线估计器从上下文bandit算法生成的日志数据中获取期望奖励最有效的离线评估和优化方式，我们的估计器在广告设计方面得到了应用，证明了我们对标准估计器的方差降低是有效的。

Sep, 2018

上下文匹配赌博机环境下的在线决策统计推断

这篇论文研究在线决策问题，通过采用上下文乐队it，并建立奖励模型来进行长期奖励最大化。使用估计模型参数的OLS和WLS方法来处理该问题，借助中心极限定理证明了参数的渐近正常性。同时，我们还通过实验验证了我们的结论。

Oct, 2020

关于批化策略优化算法的最优性

提出一种称为置信回报指数算法的类别与加权极小极大准则，用于解决有限武装随机赌徒问题中的批处理策略优化。研究表明，任何置信回报指数算法都是极小极大优的，无论乐观、悲观还是中性。同时，我们还演示了如何使用加权极小极大准则来证明通常用于批处理策略优化的悲观原则。

Apr, 2021

利用M-估计器对自适应收集数据进行统计推断

本论文通过理论分析，提出了一种基于M-估计量的方法，利用自适应算法（包括习得算法和最大似然算法）处理bandit算法采集的数据，进而构建了一种渐进有效的置信区间方法，可用于许多统计推断目标。

Apr, 2021

多臂老虎机实验中的适应性和混淆

本篇论文研究以往文献未解决的问题，提出了一种新的基于Thompson采样的算法（被称为去混淆Thompson采样），该算法在易于稳定的情况下发挥优越效率，在困难的不稳定情况下也表现出出人意料的韧性，可在具有不稳定上下文影响的武器性能的智能探险算法中应用。

Feb, 2022

自适应线性估计方程

本文提出了一种构建无偏估计器的普遍方法，使用自适应线性估计方程的思想，并建立渐近正常性的理论保证，以及实现接近最优渐近方差的讨论。

Jul, 2023

自适应实验中的最优条件推断

在批处理的强化学习实验中，我们考虑基于实现的停止时间、分配概率和目标参数进行推理的问题，其中所有这些可以根据实验的最后一个批次的信息自适应地选择。在没有进一步限制实验的情况下，我们表明仅使用最后一个批次的结果进行推理是最优的。当已知实验的自适应方面是无位置偏差的，即当我们将所有批次-臂均值移动一个常数时它们不变，我们表明数据中存在额外信息，可以通过附加的批次-臂均值的线性函数来捕捉。在更严格的情况下，即当停止时间、分配概率和目标参数仅通过一个多面体事件集合依赖于数据时，我们推导出可计算且最优的条件推理过程。

Sep, 2023

一种多臂赌博机的随时有效因果推断的实验设计

通过Mixture Adaptive Design (MAD)实验设计，与用户选择的多臂赌博算法结合Bernoulli设计，能够在几乎任何赌博算法中对平均处理效果(ATE)进行连续推论，保证统计有效性和功率，提高MAB实验中ATE推论的覆盖率和功效。

Nov, 2023

利用混淆和选择偏倚离线数据强化改进赌博算法：一种因果方法

在这篇论文中，我们研究了一个代理在在线学习阶段利用离线数据来提高每个动作奖励分布估计的困境。我们从因果结构的角度出发，将这个问题分为混淆偏差和选择偏差，并从有偏观测数据中提取鲁棒的因果边界。这些边界包含了真实的平均奖励，并能有效地指导代理学习几乎最优的决策策略。同时，我们进行了上下文和非上下文赌博机环境下的遗憾分析，并展示了先前的因果边界可以帮助持续减少渐近遗憾。

Dec, 2023