Aug, 2022
概率触发臂或独立臂组合半匪徒问题的无关批量大小的后悔界限
Batch-Size Independent Regret Bounds for Combinatorial Semi-Bandits with Probabilistically Triggered Arms or Independent Arms
Xutong Liu, Jinhang Zuo, Siwei Wang, Carlee Joe-Wong, John C.S. Lui...
TL;DR本研究探讨组合良带 (Bandits) 的算法,针对其大小批次 (K) 对后悔束缚的依赖性进行优化,发现一种可替代平滑性条件的新型触发概率和方差调节 (TPVM) 条件,进行后悔分析并提出基于置信区间和方差的 BCUCB-T 算法,将大小批次 (K) 的项降低至对数级别,并在非触发 CMAB 中将其完全去除。实验结果表明,我们的算法在不同领域具有优越的性能。