批量蒐集资料的推断
本文介绍了一种新的名为“最大似然反向倾向评分(MLIPS)”的方法,用于从批量日志二手反馈中学习。与现有方法相比,MLIPS不仅具有渐近无偏性,而且具有更小的均方根误差,表现出更好的性能。
Aug, 2018
本文考虑利用离线估计器从上下文bandit算法生成的日志数据中获取期望奖励最有效的离线评估和优化方式,我们的估计器在广告设计方面得到了应用,证明了我们对标准估计器的方差降低是有效的。
Sep, 2018
这篇论文研究在线决策问题,通过采用上下文乐队it,并建立奖励模型来进行长期奖励最大化。 使用估计模型参数的OLS和WLS方法来处理该问题,借助中心极限定理证明了参数的渐近正常性。同时,我们还通过实验验证了我们的结论。
Oct, 2020
提出一种称为置信回报指数算法的类别与加权极小极大准则,用于解决有限武装随机赌徒问题中的批处理策略优化。研究表明,任何置信回报指数算法都是极小极大优的,无论乐观、悲观还是中性。同时,我们还演示了如何使用加权极小极大准则来证明通常用于批处理策略优化的悲观原则。
Apr, 2021
本论文通过理论分析,提出了一种基于M-估计量的方法,利用自适应算法(包括习得算法和最大似然算法)处理bandit算法采集的数据,进而构建了一种渐进有效的置信区间方法,可用于许多统计推断目标。
Apr, 2021
本篇论文研究以往文献未解决的问题,提出了一种新的基于Thompson采样的算法(被称为去混淆Thompson采样),该算法在易于稳定的情况下发挥优越效率,在困难的不稳定情况下也表现出出人意料的韧性,可在具有不稳定上下文影响的武器性能的智能探险算法中应用。
Feb, 2022
在批处理的强化学习实验中,我们考虑基于实现的停止时间、分配概率和目标参数进行推理的问题,其中所有这些可以根据实验的最后一个批次的信息自适应地选择。在没有进一步限制实验的情况下,我们表明仅使用最后一个批次的结果进行推理是最优的。当已知实验的自适应方面是无位置偏差的,即当我们将所有批次-臂均值移动一个常数时它们不变,我们表明数据中存在额外信息,可以通过附加的批次-臂均值的线性函数来捕捉。在更严格的情况下,即当停止时间、分配概率和目标参数仅通过一个多面体事件集合依赖于数据时,我们推导出可计算且最优的条件推理过程。
Sep, 2023
通过Mixture Adaptive Design (MAD)实验设计,与用户选择的多臂赌博算法结合Bernoulli设计,能够在几乎任何赌博算法中对平均处理效果(ATE)进行连续推论,保证统计有效性和功率,提高MAB实验中ATE推论的覆盖率和功效。
Nov, 2023
在这篇论文中,我们研究了一个代理在在线学习阶段利用离线数据来提高每个动作奖励分布估计的困境。我们从因果结构的角度出发,将这个问题分为混淆偏差和选择偏差,并从有偏观测数据中提取鲁棒的因果边界。这些边界包含了真实的平均奖励,并能有效地指导代理学习几乎最优的决策策略。同时,我们进行了上下文和非上下文赌博机环境下的遗憾分析,并展示了先前的因果边界可以帮助持续减少渐近遗憾。
Dec, 2023