随机情境线性赌博机的实验设计

Jul, 2021

Design of Experiments for Stochastic Contextual Linear Bandits

Andrea Zanette, Kefan Dong, Jonathan Lee, Emma Brunskill

TL;DR通过设计一种单一的随机非反应策略来探索，该策略可以在一些批处理上下文可用的情况下收集良好的数据集，从中提取近似最优策略，通过理论分析和实验研究在合成和现实世界数据集上验证。

Abstract

In the stochastic linear contextual bandit setting there exist several minimax procedures for exploration with policies that are reactive to the data being acquired. In practice, there can be a significant engine

发现论文，激发创造

上下文臂机问题的大部分无需探索算法

证明了当观察到的上下文具有足够的随机性时，贪心算法可以达到速率最优，并介绍了一种新的算法 Greedy-First，该算法仅使用观察到的上下文和奖励来确定是否按照贪心策略或探索策略，同时证明该算法在没有对上下文分布或手臂数量做任何其他假设的情况下具有速率最优的性质，并大量模拟结果表明，Greedy-First成功地减少了探索并优于现有的基于Exploration的上下文bandit算法，如Thompson sampling或upper confidence bound（UCB）。

Apr, 2017

上下文赌博大比拼

本文是对背景上下文算法的一个全面的研究和综述，重点关注依靠监督学习的优化原则的实用方法，并利用大量的监督学习数据集进行了实证评估。研究发现，最近使用不确定性乐观主义的方法在整体上效果最好，其次是通过上下文多样性暗示进行探索的简单贪心基线。

Feb, 2018

半参数情境赌博机

该论文研究了半参数上下文赌博机问题，设计了新的算法来解决非线性混淆影响下的奖励估计问题，并通过实证评估证明了该算法的有效性。

Mar, 2018

OSOM: 一种用于多臂和线性上下文赌博机的同时最优算法

我们设计了一个算法，能够同时在简单多臂赌博机模式下获得问题相关的最优遗憾率和在线性上下文赌博机模式下获得极小化最优遗憾率，而不需要事先知道哪种模型产生了奖励。

May, 2019

上下文臂选择模型

介绍了在上下文密集应用中的模型选择问题及其解决方案，该方案适用于线性上下文密集应用，并在先验知识下达到了较低的后验概率。

Jun, 2019

线性上下文臂优化中的自适应探索

我们设计了一种渐近上限最优算法，并充分利用线性结构和精确探索，从而减少了在多种合理情境下的失算，数值结果表明，与其他基准算法相比，我们的方法大大减少了失算。

Oct, 2019

具有多样化上下文的随机线性情境策略带

本文研究了上下文多样性对随机线性情境赌博机的影响，提出了LinUCB-d算法并分析其遗憾性能，理论结果表明，在多样性上下文的假设下，LinUCB-d的期望累积遗憾被一个常数限制，改善了以往对LinUCB的理解并加强了其性能保证。

Mar, 2020

具有有限适应性和学习分布最优设计的线性赌臂机

本研究对线性上下文臂、受限的适应性模型和最优遗憾进行了研究，发现在批次学习模型中只需要O（log log T）批次进行学习，但在策略转换限制下需O（dlogdlogT）次策略转换才能达到最优遗憾。

Jul, 2020

突破sqrt(T)壁垒:随机情境线性老虎机具有无关实例的对数遗憾

本文提出了一种名为LR-SCB的低后悔随机情境赌博算法，可以通过利用随机情境、参数估计和后悔最小化来减少多项式级别的对数后悔，并通过实验证明了随机情境的后悔确实会随着多项式级别而增加。

May, 2022

部分可观察情境下的汤普森抽样

基于观测数据的贝叶斯泰普森抽样策略成功地平衡了探索和利用，通过引入新的鞅技术和浓厚不等式解决了部分观测相关随机变量的问题，为研究其他具有上下文信息和部分观测的决策问题铺平了道路。

Feb, 2024