TL;DR本文主要研究机遇上下文奖励问题,提出了自适应上界置信区间算法(AdaLinUCB),并实现了 O((log T )^ 2)的问题相关遗憾上界证明。
Abstract
In this paper, we propose and study opportunistic contextual bandits - a
special case of contextual bandits where the exploration cost varies under
different environmental conditions, such as network load or retu
研究此论文中的上下文臂带,其中上下文是独立且恒定分布的 d 维随机向量,期望回报在臂参数和上下文中都是线性的;提出了一种截断版的 LinUCB 算法,称为 Tr-LinUCB,其在截断时间 S 之前遵循 LinUCB,在之后进行纯粹的开发,S=Cd log(T)时达到 O(d log(T))的遗憾,如果 S = d log(T)的某个升幂,则相对于最优解的损失是费用为 loglog(T)的乘法,这种对超调敏感的 Tr-LinUCB 算法的实用重要性。