上下文匹配赌博机环境下的在线决策统计推断

Oct, 2020

上下文匹配赌博机环境下的在线决策统计推断

Statistical Inference for Online Decision-Making: In a Contextual Bandit Setting

Haoyu Chen, Wenbin Lu, Rui Song

TL;DR这篇论文研究在线决策问题，通过采用上下文乐队 it，并建立奖励模型来进行长期奖励最大化。使用估计模型参数的 OLS 和 WLS 方法来处理该问题，借助中心极限定理证明了参数的渐近正常性。同时，我们还通过实验验证了我们的结论。

Abstract

online decision-making problem requires us to make a sequence of decisions based on incremental information. Common solutions often need to learn a reward model of different actions given the contextual information and then maximize the long-term reward. It is meaningful to know if the

online decision-making contextual bandit reward model asymptotic normality weighted least squares

发现论文，激发创造

带预测内容的在线强盗学习

我们考虑了上下文强盗问题，在每个时间点上，代理只能访问上下文的嘈杂版本和误差方差（或该方差的估计）。我们提出了第一个在线算法，与适当的基准相比，在此设置中具有亚线性遗憾，其关键思想是将经典统计中的测量误差模型延伸到在线决策情境中，这是一个非常复杂的问题，因为策略依赖于嘈杂的上下文观察。

Jul, 2023

批量蒐集资料的推断

本文发展了一种基于批处理数据的自适应数据收集的带状算法推断方法，证明了普通最小二乘估计器在标准的赌臂算法收集数据时不是渐近正常的，提出了批处理 OLS 估计器，并证明其可以适用于多臂和情境赌臂算法并且对随机变量鲁棒。

Feb, 2020

半参数情境赌博机

该论文研究了半参数上下文赌博机问题，设计了新的算法来解决非线性混淆影响下的奖励估计问题，并通过实证评估证明了该算法的有效性。

Mar, 2018

广义线性情境赌博机的可证明最优算法

本文提出了针对广义线性情境臂的上界置信度算法，实现了与众不同的性能，同时我们还分析了更简单的上界置信度算法，在特定情况下证明了该算法具有最优的后悔。

Feb, 2017

上下文臂选择模型

介绍了在上下文密集应用中的模型选择问题及其解决方案，该方案适用于线性上下文密集应用，并在先验知识下达到了较低的后验概率。

Jun, 2019

非平稳广义线性赌博机算法

本文提出了两个基于上限置信度算法的广义线性模型及其应用的方法，以解决在非静态环境下的上下文在线学习和塞德利反馈问题，这些结果表明这些算法在一般的情境序列下，并且存在突然变化时具有高概率的上限置信度边界，证明结果的形式为时间 T 内的 d^2/3 G^1/3 T^2/3 阶动态后悔。

Mar, 2020

平衡线性情境臂

本篇论文针对强异质性或复杂结果模型容易引起难以估计问题的上下文匹配算法，通过整合因果推断文献中的平衡方法来降低其偏差估计的问题，并对具有平衡的线性上下文匹配算法进行损失分析，从而展示了其在多个监督学习数据集上的实用优势以及在初级训练数据中模拟模型错误和偏见的工作中所展现出的优越性。

Dec, 2018

广义线性赌臂问题的高效算法：在线随机梯度下降和汤普森抽样

本研究提出了一种基于在线随机梯度下降的广义线性赌博机算法，它使用单步 SGD 更新来利用过去的信息并使用汤普森抽样实现探索，能够在探索与利用之间取得平衡，在合成和实际数据集上始终优于现有算法，其总时间复杂度为 T 和 d 的线性比例，其中 T 是总轮次数，d 是特征数量，并实现了 O（T）的遗憾，其中 T 是回合数。

Jun, 2020

基于上下文的赌博机中最优的自适应离线评估

本研究旨在研究在没有相应奖励模型的情况下，通过使用由另一政策收集的数据来估算目标政策的价值的，上下文 Bandit 模型下的离线政策评估问题。所提出的 SWITCH estimator 可以使用现有的（不一定一致的）奖励模型来实现更好的偏差 - 方差平衡，从而在多个数据集上实现更好的表现。

Dec, 2016

线性上下文臂优化中的自适应探索

我们设计了一种渐近上限最优算法，并充分利用线性结构和精确探索，从而减少了在多种合理情境下的失算，数值结果表明，与其他基准算法相比，我们的方法大大减少了失算。

Oct, 2019