Oct, 2021

紧致的 RKHS 元素在线置信区间的开放问题

TL;DR研究了基于核的赌博机和强化学习问题,利用可再生核希尔伯特空间 (RKHS) 元素的置信区间,发现现有置信区间似乎不紧,导致次优的遗憾度界限,存在几种核化赌博机算法 (例如 GP-UCB,GP-TS 及其变种) 的现有遗憾度界限可能甚至不能达到亚线性,需要在在线观察点的连续性质的条件下重新界定 RKHS 环境下的在线置信区间问题并简述现有进展。