机会主义赌博机的自适应勘探和开发平衡

ICMLSep, 2017

机会主义赌博机的自适应勘探和开发平衡

Adaptive Exploration-Exploitation Tradeoff for Opportunistic Bandits

Huasen Wu, Xueying Guo, Xin Liu

TL;DR提出了一种新型武器 - 机会主义强盗，研究了不同环境条件下拉取次优武器的损失，提出了一种自适应上置信界算法（AdaUCB）来平衡开采 - 探索的权衡，证明了 AdaUCB 的性能优于传统算法，并在合成数据和真实世界的实验结果中得到了验证。

Abstract

In this paper, we propose and study opportunistic bandits - a new variant of bandits where the regret of pulling a suboptimal arm varies under different →

opportunistic bandits environmental conditions adaucb algorithm exploration-exploitation tradeoff regret

发现论文，激发创造

AdaLinUCB: 基于上下文的赌博机的机会学习

本文主要研究机遇上下文奖励问题，提出了自适应上界置信区间算法（AdaLinUCB），并实现了 O（（log T ）^ 2）的问题相关遗憾上界证明。

Feb, 2019

非平稳赌博机问题的置信上限策略

本文考虑了分布保持不变，但在未知时间发生改变的非稳态赌徒问题，研究了两种算法：折扣上限置信区间和滑动窗口上限置信区间，并通过 Hoeffding 不等式得到了后者的上界，对不优的赌博机被玩的次数期望进行了上界估计并证明了存在性突然性改变时的遗憾下界，证明了折扣上限置信区间和滑动窗口上限置信区间的匹配下界一致性。

May, 2008

优化置信区间上界算法：改进有限臂赌博机的遗憾

提出了一种基于 UCB 并具有适当的置信参数平衡风险和过度乐观代价的随机有限臂老虎机算法，同时具有最优问题依赖性遗憾和最坏情况遗憾。

Jul, 2015

基于数据驱动的上界置信度在重尾赌博机上的近优遗憾

本文提出了一种分布无关、数据驱动的上置信界（UCB）算法，结合最近发展的重新抽样中位数法（RMM）方法，对称奖励分布的研究中生成近乎最优的后悔边界，即使是重尾分布。

Jun, 2024

合作多智体图形赌博机：UCB 算法和遗憾分析

在这篇论文中，我们将多智能体图赌博问题定义为由 Zhang、Johansson 和 Li [CISS 57，1-6（2023）] 引入的图赌博问题的多智能体扩展。我们提出了一种基于上限置信界（UCB）的学习算法 Multi-G-UCB，并证明其在 T 步内的期望遗憾通过 O (Nlog (T)[sqrt (KT) + DK]) 被界定，其中 D 是图 G 的直径。最后，我们通过与其他方法的比较对算法进行了数值测试。

Jan, 2024

概率无界对抗下的稳健随机赌博算法

提出抵御恶意攻击的新型样本中位数算法和探索辅助上限置信区间算法，并通过多个仿真和实验表明它们能够在多臂赌博机问题中实现 sublinear regret。

Feb, 2020

自举式上置信域界限算法

本文提出了一种基于乘数 bootstrap 的非参数和数据相关的 UCB 算法，并进一步将二阶校正融入该算法，在理论上，我们推导出了在比标准次高斯性更弱的尾部假设下的多臂老虎机的问题相关和问题无关的后悔边界，数值结果表明 UCB 算法相比其他基线在一系列多臂和线性老虎机问题中都有显著的降低后悔

Jun, 2019

UCB 赌博机上的近最优对抗攻击

我们提出了一种新的攻击策略，在随机多臂赌博问题中，通过操纵 UCB 原则来引导其选择一些次优的目标臂，攻击成本的累计代价随轮数的增加而增长，上界与下界相差一个 loglogT 的因子，因此我们的攻击接近最优。

Aug, 2020

基于上置信界探索的神经上下文波段算法

我们提出了一种新算法 NeuralUCB 来解决随机上下文的赌博机问题，它利用了深度神经网络的表达能力并使用基于神经网络的随机特征映射来构建奖励的上界，证明了该算法能够在一些基准测试中具有实际竞争力且能够保证近乎最优的回报保证。

Nov, 2019

一种带有演化操作的赌博机方法进行模型选择

该研究论文将模型选择问题视为无限臂赌博机问题，通过部分训练（资源分配）选择模型，准确率作为奖励，最佳模型与最终选择模型之间的期望准确率差异作为遗憾，提出了一种基于进化算法的新型组合方法 Mutant-UCB，通过在三个开源图像分类数据集上的测试，证明了其相对于固定预算的超出先进技术的相关性。

Feb, 2024