Aug, 2022

概率触发臂或独立臂组合半匪徒问题的无关批量大小的后悔界限

TL;DR本研究探讨组合良带 (Bandits) 的算法,针对其大小批次 (K) 对后悔束缚的依赖性进行优化,发现一种可替代平滑性条件的新型触发概率和方差调节 (TPVM) 条件,进行后悔分析并提出基于置信区间和方差的 BCUCB-T 算法,将大小批次 (K) 的项降低至对数级别,并在非触发 CMAB 中将其完全去除。实验结果表明,我们的算法在不同领域具有优越的性能。