SIGIRMay, 2018

非静态环境下学习上下文臂

TL;DR本文介绍了一种上下文赌博算法,它基于奖励估计置信度来检测环境变化并相应地更新其臂选择策略,而严格的上限遗憾分析证明了其在非平凡环境中的学习效果。