May, 2019

组合多臂老虎机问题的批量独立遗憾界

TL;DR针对组合多臂赌博机问题中的非线性奖励函数和批处理选择,引入一种新的平滑度标准——基尼加权平滑度,证明了现有算法中的线性后悔量与批大小的关系可以被该平滑度参数取代,并在概率最大覆盖问题中获得了明显的精度提高。