关于赖氏多臂赌博机中的上置信界

Oct, 2024

关于赖氏多臂赌博机中的上置信界

On Lai's Upper Confidence Bound in Multi-Armed Bandits

Huachen Ren, Cun-Hui Zhang

TL;DR本文聚焦于赖子在多臂赌博机领域的开创性贡献，提出了对于高斯奖励的上置信界的尖锐非渐近后悔界限，解决了研究中对常量探索级别的欠缺。同时，我们为赖1987年提出的基于样本量递减的探索函数的上置信界建立了新的非渐近后悔界限，结果显示出与赖-罗宾斯下界相匹配的常数，为多臂赌博机的研究提供了新的视角。

Abstract

In this memorial paper, we honor Tze Leung Lai's seminal contributions to the topic of Multi-Armed Bandits, with a specific focus on his pioneering work on the Upper Confidence Bound. We establish sharp non-asymp

发现论文，激发创造

线性参数化赌博机

本文研究基于多维随机向量臂收益的赌博机问题，证明了在解决特定问题时使用相应的相位策略可以达到最优的累计遗憾和贝叶斯风险，并提出了针对通用问题的近似最优解。

Dec, 2008

K臂对决赌徒问题的相关上限置信界

本文介绍了一种新的解决K-armed dueling bandit问题的方法，其扩展了Upper Confidence Bound算法并证明了有限时间的遗憾度为O（log t）。经实验结果证实，与现有技术相比，该方法在信息检索中取得了显着的优势。

Dec, 2013

lil' UCB: 多臂赌博机的最优探索算法

在多臂老虎机游戏中，利用少量样本通过固定置信度水平下的置信区间，提出了一种最初的置信上界算法，该算法使用的样本数量与基于迭代对数定理的下限相比仅相差常数因子，同时使用了一种新的停止时间来避免在其他上置界型算法中观察到的臂联合的界限，从而进一步优化了算法，并通过模拟证明了算法的性能。

Dec, 2013

多臂赌博机模型中最佳臂识别的复杂度

本文介绍了多臂老虎机模型的性能表现，并提供了特定情况下的下限和匹配算法。此外，还提供了改进的序贯停止规则以及两个独立的技术结果。

Jul, 2014

有限臂结构赌博机的有界遗憾

研究了一种新型的K武装强盗问题，介绍了一种针对这一问题的新算法，并展示了在特定条件下可以实现有限的预期累计遗憾，同时提供了依赖于问题的累计遗憾下限，显示出至少在某些特殊情况下，新算法是近乎最优的。

Nov, 2014

探索不再：非随机赌博机的改进高概率遗憾界限

本文提出了基于 Implicit eXploration 的损失估计策略，可以在不需要不必要的探索成分的情况下，实现高概率遗憾界，取得了多臂赌博问题方面的改进结果。

Jun, 2015

具有一般奖励函数的组合多臂赌博机

本文研究了随机组合多臂赌博机框架，提出了一种名为SDCB的新算法，该算法估计底层随机变量的分布和它们的随机显著性置信区间，并证明了SDCB可以实现 O(logT) 的分布相关遗憾和 $ ilde{O}(√T)$ 的分布无关遗憾，并将所得结果应用于$K$-MAX问题。

Oct, 2016

稀疏随机赌博机

本文研究了经典多臂老虎机问题的稀疏情况，并提出了一种算法，其遗憾值与臂数的正比例关系被缩小至仅与正收益臂数相同，同时证明了其最优性。

Jun, 2017

贪心算法在多臂老虎机问题中的不合理有效性

研究了贝叶斯多臂赌博问题的多臂区间，证明了对于設計最优策略子采样至关重要，提出了一种新型的无偿探索方法，即对奖励分布的尾事件进行无偿探索，使用模拟数据和真实数据测试后发现贪婪算法表现更佳。

Feb, 2020

离线赌博机中基于贝叶斯遗憾最小化的凸松弛方法

本文提出了一种利用高效对偶锥优化器，直接最小化贝叶斯遗憾的上界以及与VaR和机遇约束优化之间的关系建立的边界的新方法来优化不确定环境下离线数据的决策问题，并与现有算法进行了比较。

Jun, 2023