核化情境赌博机的有限时间分析
本文提出了两种基于高斯过程的算法-改进的GP-UCB(IGP-UCB)和GP-Thomson采样(GP-TS),并给出了相应的遗憾边界,在连续的臂集上解决了随机赌徒问题。当期望奖励函数属于复制核希尔伯特空间(RKHS)时,边界成立。在实验评估和对合成和真实世界环境中现有算法的比较中,突出了所提出策略的优势。
Apr, 2017
我们考虑在具有Matern核的再生核希尔伯特空间(RKHS)中优化函数的问题,该核的光滑度参数为ν,域为[0,1]^d,在带有噪声的强化学习反馈下,我们提出了第一个实用的算法,即π-GP-UCB算法,对于所有ν> 1和d≥1都具有保证的子线性遗憾。经验证明,与其前身改进的GP-UCB相比,性能更好,计算可扩展性大大提高。
Jan, 2020
本文提出了一种将上下文强化学习转化为在线回归问题的算法;该算法可以在泛型函数类上实现最小化风险,并且与以前的结果相比,它不需要任何分布假设,即使在敌对性上下文的情况下也可以工作。
Feb, 2020
该论文考虑了具有普适性假设的(随机性)上下文赌博问题,设计了一种快速、简单的算法,在所有$T$回合中通过对离线回归神谕的$logT$次调用实现了统计优化遗憾。我们的结果提供了第一个从上下文赌徒到离线回归的通用和最优化简化,解决了上下文赌徒文献中的一个重要开放问题。我们的结果表明,离线回归中的任何进展都将立即在上下文赌客中进行统计和计算翻译。
Mar, 2020
本文针对分布式学习环境下学习核化上下文赌博机问题的通信效率挑战,提出了一种基于Nyström嵌入的解决方案,可以在保证通信效率的同时,实现对非线性映射的学习。通过严谨的证明,证明了该算法在遗憾和通信成本方面可以获得次线性速率。
Jun, 2022
研究了在核化赌博机问题中,在未知正则性的情况下学习算法是否能够自适应于相关核函数的正则性。通过研究转化不变核的正则性自适应性,我们推导出自适应性的下限,证明不可能在具有不同规则性的RKHS对中同时实现最优累计遗憾。通过连接在不同功能空间中自适应的统计困难性,我们展示了这一下限的紧密性。
Apr, 2023
该研究提出了一种基于核的上下文臂策略,使用在线加权核岭回归估算器对奖励函数进行估算,并在一定条件下证明了该估计器的一致性,同时针对任何核和相应的RKHS均可实现次线性遗憾率和最优遗憾率。
Jun, 2023
通过将属于再现核希尔伯特空间的损失函数纳入到对手性线性背景乐队的在线学习问题的研究中,我们提出了一种计算有效的算法,该算法利用一种新的对损失函数进行乐观偏差估计的方法,在对底层内核进行的各种特征值衰减假设下实现接近最佳的后悔保证。
Oct, 2023