上下文阻塞赌博机

Mar, 2020

Contextual Blocking Bandits

Soumya Basu, Orestis Papadigenopoulos, Constantine Caramanis, Sanjay Shakkottai

TL;DR该论文研究了一种新的上下文多臂赌博问题，其中玩家在每个时间步观察独立采样的上下文，以确定每个臂的平均回报，但播放一个臂会在未来的一定时间步内阻止它。作者提出了基于 UCB 的算法来解决这个问题，同时介绍了延迟利用和机会抽样的概念。

Abstract

We study a novel variant of the multi-armed bandit problem, where at each time step, the player observes an independently sampled context that determines the arms' mean rewards. However, playing an arm blocks it (across all contexts) for a fixed and known number of future time steps. T

multi-armed bandit problem contextual setting online bipartite matching problem regret bounds delayed exploitation

发现论文，激发创造

带有随机延迟的组合式封锁赌博机

本文考虑了带障碍的多臂赌博机问题中，包含组合优化的情况下解决局部最优策略的方法。我们扩展了现有模型，使得多个手臂可以按照可行性约束同时进行决策。本文提出了一种自然的贪心算法，并针对其在多种情况下的表现给出了严格的理论保证。

May, 2021

使用交叉学习的上下文策略带

本研究提出了一种解决上下文相关性及跨上下文学习问题的算法，可在拍卖等有战略设置中实现更高性能的结果。

Sep, 2018

非参数随机情境臂机

探讨 K-armed bandit 问题下的 noisy reward，提出了一种简单实用的算法（kNN-UCB），并得到了紧密的 top-arm identification 和 sublinear regret 边界，并讨论了该算法的全局 intrisinic dimension 和 ambient dimension 的 regret 边界，同时介绍了对于无限武装情境下 bandit 算法的扩展和实验证明了算法在多种任务上的优越性。

Jan, 2018

非静态环境下学习上下文臂

本文介绍了一种上下文赌博算法，它基于奖励估计置信度来检测环境变化并相应地更新其臂选择策略，而严格的上限遗憾分析证明了其在非平凡环境中的学习效果。

May, 2018

多任务学习用于情境赌博机

本文提出了一个基于上限置信区间的多任务学习算法框架，用于处理具有高任务相似性的上下文型臂带问题，并揭示了此算法在数据中高任务相似性的优势。

May, 2017

基于上下文多臂赌博机的时变用户兴趣个性化推荐

研究了在高度非静态环境中的情境赌博问题，提出了一种高效的自适应学习算法，并提供了理论上的遗憾分析来证明在时间长度 $T$ 的情况下，实现了遗憾的亚线性缩放。此外，将该算法扩展到混合收益的更一般情况下，并进行了实证实验，证明了该算法在两种设置下对基线算法的优势。

Feb, 2020

阻断赌徒

考虑到重复使用某些选项可能是不可取的或不可行的，本文提出了一种新颖的随机多臂赌博机设置，并通过映射到 PINWHEEL 调度问题证明了问题的优化累积奖励不允许有伪多项式时间算法，但它设计了一种贪婪算法和一种基于 UCB 的算法，具有一定的优异性。

Jul, 2019

具有相似性信息的情境赌博机

本文考虑相似度信息在上下文赌博中的应用，设计了基于自适应分区调整的更有效算法，用于在广告投放等领域中解决相应问题。

Jul, 2009

带预测内容的在线强盗学习

我们考虑了上下文强盗问题，在每个时间点上，代理只能访问上下文的嘈杂版本和误差方差（或该方差的估计）。我们提出了第一个在线算法，与适当的基准相比，在此设置中具有亚线性遗憾，其关键思想是将经典统计中的测量误差模型延伸到在线决策情境中，这是一个非常复杂的问题，因为策略依赖于嘈杂的上下文观察。

Jul, 2023

上下文关注的赌博机：具有限制上下文的上下文赌徒

该论文探讨了一种新颖的 “限制上下文条件下的上下文赌博机” 模型，其中将 Thompson 抽样算法用于处理固定状态和非固定状态，该方法在临床试验、推荐系统和注意力建模中有较大应用。实验证明了提出方法在多个真实数据集上优势明显。

May, 2017