带挑战反馈的主动聚类

Jun, 2024

Active clustering with bandit feedback

Victor Thuot, Alexandra Carpentier, Christophe Giraud, Nicolas Verzelen

TL;DR在本文中，我们研究了主动聚类问题（ACP）。一个学习者与具有 d 维亚高斯反馈的 N 臂随机赌博机交互。存在一致维向量的 K 个组将臂分为隐藏分区，同一组中的臂共享相同的均值向量。学习者的任务是以最小的预算发现这个隐藏分区，并且误差概率小于一个预定的常数 δ。在本文中，我们（i）推导了预算的非渐近下界，（ii）提出了计算高效的 ACB 算法，其预算与大多数情况下的下界相匹配。我们改进了统一采样策略的性能。重要的是，与批处理设置不同，我们证明主动设置中不存在计算信息差距。

Abstract

We investigate the active clustering problem (ACP). A learner interacts with an $N$-armed stochastic bandit with $d$-dimensional subGaussi

active clustering problem learner stochastic bandit hidden partition budget

发现论文，激发创造

多臂赌博机中主动学习的上置信界算法

本文主要研究的问题是：如何在样本预算有限的情况下，统一地估计多个分布的平均值。通过采集数量，可以根据它们的方差为已知来设计最优的采样策略，但在更实际的情况下，需要设计自适应采样策略来选择要采样的分布（根据先前观察到的样本）。文章描述了两种策略，根据样本数据以高概率上限置信界为比例，拉动分布并报告相对于最优配置的过度估计误差的有限样本性能分析。我们表明这些分配策略的性能不仅取决于方差还取决于分布的完整形状。

Jul, 2015

去中心化协作随机赌博机

本文研究了多臂赌博机问题在网络上的去中心化协作，采用加速一致性过程来计算所有智能体对每个臂的平均奖励，该算法采用上置信区间来决策，能够达到更好的回归界，同时不需要过多的底层网络信息。

Oct, 2018

赌博问题中的积极探索梯度上升

基于梯度上升的新算法解决在固定置信度设置下的主动探索赌博机问题，采用在线惰性镜像上升的新采样规则，证明算法渐近最优和计算上高效。

May, 2019

贝叶斯批次主动学习作为稀疏子集逼近

本研究提出一种基于贝叶斯批量主动学习方法来解决大规模监督模型中标签获取成本高的问题，从而利用大量未标记数据来改善模型性能。此方法通过逼近模型参数的完整数据后验概率，并使用随机投影技术来推广到任意模型，从而使批处理的数据选择更加多样，有效降低了计算复杂度，并在多个大规模回归和分类任务上得到了证实。

Aug, 2019

关于上下文相关赌博机聚类的研究

CAB 算法是一种协同推荐算法，它采用了上下文相关的用户邻域估计机制，能够同时进行探索利用平衡和协同步骤，证明了具有不同数据假设的后悔边界，并在生产和真实数据集上验证了 CAB 的显着预测性能优势。

Aug, 2016

多智能体多臂赌博决策分布式一致性算法

研究多智能体多臂赌博问题中的决策制定策略，利用贝叶斯变点检测和重启决策协作优化多智能体 UCB 算法的期望组后悔率的理论上限，并在合成数据集和真实数据集上进行数值实验，表明所提出的方法优于现有的算法。

Jun, 2023

MaxGap Bandit：适应性算法用于近似排名

本文研究自适应地从 K 个分布（臂）中抽样，以确定任意两个相邻均值之间的最大差距，即最大间隙赌博机问题。作者提出消除与 UCB 风格的算法，并证明了它们是极小化的最优解。实验结果表明，UCB 风格的算法需要的样本数量比非自适应抽样少 6-8 倍。

Jun, 2019

针对分段平稳赌博机的变化检测近乎最优自适应程序

通过结合经典的 UCB 算法和简单的变化检测组件，我们提出了一种称为 M-UCB 的算法，可以在未知时间步骤中检测和适应变化，并在多臂赌博机问题中实现近乎最优的风险界。通过在公共数据集上进行数值实验，我们还展示了该算法的卓越性能。

Feb, 2018

从多臂老虎机的角度看主动学习

本文提出了一个受多臂老虎机启发的池化主动学习算法，通过精心构造主动学习和多臂老虎机之间的类比，利用多臂老虎机文献中的下限置信度和自协调正则化等思想来设计我们提出的算法。我们的算法是一个顺序算法，在每一轮中，将池上的一个采样分布分配在上面，从这个分布中采样一个点，并查询标签。我们的采样分布的设计也受到了主动学习和多臂老虎机之间类比的启发。我们展示了如何推导算法所需的下限置信度。实验比较表明，在一些标准的 UCI 数据集上，与先前提出的主动学习算法相比，我们的算法具有更好的性能。

Sep, 2013

非平稳赌博机问题的置信上限策略

本文考虑了分布保持不变，但在未知时间发生改变的非稳态赌徒问题，研究了两种算法：折扣上限置信区间和滑动窗口上限置信区间，并通过 Hoeffding 不等式得到了后者的上界，对不优的赌博机被玩的次数期望进行了上界估计并证明了存在性突然性改变时的遗憾下界，证明了折扣上限置信区间和滑动窗口上限置信区间的匹配下界一致性。

May, 2008