Feb, 2022

截断LinUCB算法用于随机线性赌臂问题

TL;DR研究此论文中的上下文臂带,其中上下文是独立且恒定分布的d维随机向量,期望回报在臂参数和上下文中都是线性的;提出了一种截断版的LinUCB算法,称为Tr-LinUCB,其在截断时间S之前遵循LinUCB,在之后进行纯粹的开发,S=Cd log(T)时达到O(d log(T))的遗憾,如果S = d log(T)的某个升幂,则相对于最优解的损失是费用为loglog(T)的乘法,这种对超调敏感的Tr-LinUCB算法的实用重要性。