利用（有偏）信息：带离线数据的多臂老虎机

ICMLMay, 2024

利用（有偏）信息：带离线数据的多臂老虎机

Leveraging (Biased) Information: Multi-armed Bandits with Offline Data

Wang Chi Cheung, Lixing Lyu

TL;DR利用离线数据在随机多臂赌博机的在线学习中进行了改进，提出了一个在线策略 MIN-UCB，在给定非平凡上界的情况下优于 UCB，适当地选择使用离线数据以提高性能，理论和实验结果都表明 MIN-UCB 是一个有效的策略。

Abstract

We leverage offline data to facilitate online learning in stochastic multi-armed bandits. The probability distributions that govern the offline d

offline data online learning stochastic multi-armed bandits ucb policy min-ucb policy

发现论文，激发创造

具有离线数据访问的赌博机中的最优臂识别

研究了混合离线数据和在线理学习范例，以在具有关联线下数据的情况下识别具有最高平均值的臂，其置信度为 1-delta 的随机 K 武器窘境问题，并设计了一个能够匹配最低样本复杂性下界的算法。

Jun, 2023

利用混淆和选择偏倚离线数据强化改进赌博算法：一种因果方法

在这篇论文中，我们研究了一个代理在在线学习阶段利用离线数据来提高每个动作奖励分布估计的困境。我们从因果结构的角度出发，将这个问题分为混淆偏差和选择偏差，并从有偏观测数据中提取鲁棒的因果边界。这些边界包含了真实的平均奖励，并能有效地指导代理学习几乎最优的决策策略。同时，我们进行了上下文和非上下文赌博机环境下的遗憾分析，并展示了先前的因果边界可以帮助持续减少渐近遗憾。

Dec, 2023

自举式上置信域界限算法

本文提出了一种基于乘数 bootstrap 的非参数和数据相关的 UCB 算法，并进一步将二阶校正融入该算法，在理论上，我们推导出了在比标准次高斯性更弱的尾部假设下的多臂老虎机的问题相关和问题无关的后悔边界，数值结果表明 UCB 算法相比其他基线在一系列多臂和线性老虎机问题中都有显著的降低后悔

Jun, 2019

非平稳赌博机问题的置信上限策略

本文考虑了分布保持不变，但在未知时间发生改变的非稳态赌徒问题，研究了两种算法：折扣上限置信区间和滑动窗口上限置信区间，并通过 Hoeffding 不等式得到了后者的上界，对不优的赌博机被玩的次数期望进行了上界估计并证明了存在性突然性改变时的遗憾下界，证明了折扣上限置信区间和滑动窗口上限置信区间的匹配下界一致性。

May, 2008

成本感知级联赌博算法

本文提出了一种成本感知的级联赌博模型，研究其应用在在线和离线环境下的表现，并介绍了一种新的成本感知级联上置信区间算法以解决在线环境下的问题。

May, 2018

数据稀缺情况下信赖区域增强的数据困局可靠决策

在只有每个臂的单个样本的数据匮乏情况下，本研究展示了即使在这种情况下也可能找到与最优策略相竞争的策略，这为基于仅有少量样本进行可靠决策的场景开辟了道路。我们的分析揭示了离线决策中，随机策略可能比确定性策略显著优越。针对离线多臂赌博机，我们设计了一种名为 TRUST 的算法，它与主导的基于值的下界方法截然不同，其设计得益于定位法则、关键半径和相对悲观主义。我们证明了其样本复杂度与 LCB 在极小化极大问题上可比，而在样本极少问题上明显较低。最后，我们考虑了一个在已知记录策略的特殊情况下的离线强化学习应用。

Feb, 2024

基于图的赌博机学习

本论文研究了一种称为图赌博机的多臂赌博机扩展问题，提出了一种能够利用乐观原则平衡长期探索与开发的学习算法 G-UCB，并证明其能够达到理论最优的遗憾界，数值实验结果表明该算法优于其他基准算法。

Sep, 2022

基于数据驱动的上界置信度在重尾赌博机上的近优遗憾

本文提出了一种分布无关、数据驱动的上置信界（UCB）算法，结合最近发展的重新抽样中位数法（RMM）方法，对称奖励分布的研究中生成近乎最优的后悔边界，即使是重尾分布。

Jun, 2024

上下文阻塞赌博机

该论文研究了一种新的上下文多臂赌博问题，其中玩家在每个时间步观察独立采样的上下文，以确定每个臂的平均回报，但播放一个臂会在未来的一定时间步内阻止它。作者提出了基于 UCB 的算法来解决这个问题，同时介绍了延迟利用和机会抽样的概念。

Mar, 2020

在线匹配：一种用于大规模推荐的实时试错系统

通过在线学习的方法，本研究提出了一种用于大规模推荐系统的可扩展闭环赌博系统，以提高新内容发现和物品探索的能力。

Jul, 2023