May, 2024

次线性时间下的拟阵半赌博问题

TL;DR研究了 matroid semi-bandits 问题,提出了一个计算更便宜的算法 FasterCUCB,基于对内积权重的近似最大重量基的动态维护,能够保证与 CUCB 相匹配的遗憾上限,用来最大化期望累积线性回报。