Sep, 2013

核化情境赌博机的有限时间分析

TL;DR本文提出了一种基于KernelUCB算法在具有相似性但动作数量巨大的问题中进行在线奖励最大化,适用于重现核希尔伯特空间中的任意线性奖励函数。