Aug, 2022
概率触发臂或独立臂组合半匪徒问题的无关批量大小的后悔界限
Batch-Size Independent Regret Bounds for Combinatorial Semi-Bandits with
Probabilistically Triggered Arms or Independent Arms
TL;DR本研究探讨组合良带(Bandits)的算法, 针对其大小批次(K)对后悔束缚的依赖性进行优化, 发现一种可替代平滑性条件的新型触发概率和方差调节(TPVM)条件, 进行后悔分析并提出基于置信区间和方差的BCUCB-T算法,将大小批次(K)的项降低至对数级别, 并在非触发CMAB中将其完全去除。实验结果表明, 我们的算法在不同领域具有优越的性能。