Nov, 2023

线性赌博机的集成抽样:小集成即可

TL;DR我们提供了第一个对于随机线性老虎机设置的集成抽样方法的有用、严格的分析,特别是在标准假设下,对于一个交互时域为T的d维度随机线性老虎机,在大小约等于d log T的集成抽样方式下,所产生的后悔从数量级上被界定为(d log T)^(5/2) × sqrt(T)。本文是第一个在任何结构化设置下不要求集成的大小与T线性扩展,同时达到接近sqrt(T)量级后悔的结果。本文也是第一个允许无限动作集的结果。