具上下文的组合赌博机、概率挑战的手臂

Mar, 2023

具上下文的组合赌博机、概率挑战的手臂

Contextual Combinatorial Bandits with Probabilistically Triggered Arms

Xutong Liu, Jinhang Zuo, Siwei Wang, John C.S. Lui, Mohammad Hajiesmaili...

TL;DR本文针对情境组合赌博问题，提出了一种具有触发概率和方差自适应的算法，并给出了相应的遗憾界。在合成和真实世界数据集上的实验结果表明算法的优越性。

Abstract

We study contextual combinatorial bandits with probabilistically triggered arms (C$^2$MAB-T) under a variety of smoothness conditions that capture a wide range of applications, such as contextual cascading bandits and contextual influence maximization bandits. Under the →

combinatorial bandits contextual bandits regret bound triggering probability variance-adaptive algorithm

发现论文，激发创造

概率触发臂或独立臂组合半匪徒问题的无关批量大小的后悔界限

本研究探讨组合良带 (Bandits) 的算法，针对其大小批次 (K) 对后悔束缚的依赖性进行优化，发现一种可替代平滑性条件的新型触发概率和方差调节 (TPVM) 条件，进行后悔分析并提出基于置信区间和方差的 BCUCB-T 算法，将大小批次 (K) 的项降低至对数级别，并在非触发 CMAB 中将其完全去除。实验结果表明，我们的算法在不同领域具有优越的性能。

Aug, 2022

概率触发手臂组合半赌博算法的遗憾上界优化及应用

该论文研究具有概率触发臂的组合多臂赌博机 (CMAB-T) 和半弱馈反的问题，将触发概率调制 (TPM) 条件引入 CMAB-T 框架中以达到更好的遗憾界限，并发现许多应用程序如影响最大化赌博机和组合级联赌博机满足 TPM 条件。此外，本文提供了下限结果，表明这种条件对于消除 $1/p^*$ 因子是至关重要的。

Mar, 2017

组合多臂老虎机及其对概率触发臂的扩展

该研究提出了一种通用的组合多臂赌博问题框架，将未知分布的基础臂组成超级臂进行玩耍，进一步探讨了更多可能基于已激发臂的结果触发概率的扩展，旨在通过在线学习算法实现最小化（α，β）- 逼近遗憾。

Jul, 2014

应用于逐步强化学习和其他领域的组合多元多臂赌博机

引入一种新的组合多臂赌博梳理 (CMAB) 框架，具有多维和概率触发的臂 (CMAB-MT)，其中每个臂的结果是一个 d 维多维随机变量，反馈遵循普通臂触发过程。

Jun, 2024

具有一般奖励函数的组合多臂赌博机

本文研究了随机组合多臂赌博机框架，提出了一种名为 SDCB 的新算法，该算法估计底层随机变量的分布和它们的随机显著性置信区间，并证明了 SDCB 可以实现 O (logT) 的分布相关遗憾和 $ ilde {O}(√T)$ 的分布无关遗憾，并将所得结果应用于 $K$-MAX 问题。

Oct, 2016

组合神经赌博机

本文提出了两个基于深度神经网络的组合赌博算法：CN-UCB 和 CN-TS，它们是首个在组合赌博问题中实现遗憾性能保证的算法。通过数值实验，证明了我们的算法有更好的性能。

May, 2023

非参数随机情境臂机

探讨 K-armed bandit 问题下的 noisy reward，提出了一种简单实用的算法（kNN-UCB），并得到了紧密的 top-arm identification 和 sublinear regret 边界，并讨论了该算法的全局 intrisinic dimension 和 ambient dimension 的 regret 边界，同时介绍了对于无限武装情境下 bandit 算法的扩展和实验证明了算法在多种任务上的优越性。

Jan, 2018

上下文阻塞赌博机

该论文研究了一种新的上下文多臂赌博问题，其中玩家在每个时间步观察独立采样的上下文，以确定每个臂的平均回报，但播放一个臂会在未来的一定时间步内阻止它。作者提出了基于 UCB 的算法来解决这个问题，同时介绍了延迟利用和机会抽样的概念。

Mar, 2020

针对随机情境对决赌徒的方差感知后悔界限

本研究提出了一种基于广义线性模型的上下文对决算法，该算法在计算效率和方差感知遗憾边界方面有优势，并通过实验验证了其优于以往无方差算法的优点。

Oct, 2023

基于数据驱动的上界置信度在重尾赌博机上的近优遗憾

本文提出了一种分布无关、数据驱动的上置信界（UCB）算法，结合最近发展的重新抽样中位数法（RMM）方法，对称奖励分布的研究中生成近乎最优的后悔边界，即使是重尾分布。

Jun, 2024