Oct, 2020

基于上下文信息的无监督连续选择在线算法

TL;DR研究了一个新的随机上下文臂问题变体,其中臂的损失无法从观察到的反馈中推断出来,每一轮中介绍一个上下文,学习者将臂顺序地选择到一定深度,如果问题结构中的最优臂可以得到明确或隐含的推断,则可以通过提出的算法来进行学习并展示它具有次线性的遗憾。