自适应离散化高斯过程赌博机
通过多臂赌博机问题和高斯过程来解决在优化一个未知、嘈杂及难以评估的函数的问题。我们在这个问题上得到了遗憾界,建立了高斯过程优化和实验设计之间的联系。通过实验,我们证明了 GP-UCB 可以优于其他启发式高斯过程优化方法。
Dec, 2009
研究连续性赌博机问题下高斯过程与多种学习算法(GP-UCB、GP-TS)的误差性能,通过独立的贝叶斯和频率学派来分析多项式差距,得出了均价核的特殊化,进一步提高了误差性能。
Sep, 2020
本文研究了一种直接利用未知函数 argmax 估计值的优化策略,并与 GP-UCB 和 GP-PI 策略建立了紧密联系。该方法的自动适应调整探索和利用的权衡,在机器人和视觉任务的广泛实证评估中表现出鲁棒性,通过性能 - 遗憾的界限说明了自适应调整的效果。
Oct, 2015
本文提出了两种基于高斯过程(GP)方法的算法:一种乐观的 EC-GP-UCB 算法,另一种是一种消除型算法 Phased GP Uncertainty Sampling。本文给出了算法的上界,其依赖于时间长度和核心参数,证明了我们的算法在不知道错误情况下实现了对 ε 的最优依赖性,并证明了 EC-GP-UCB 可以与后悔边界平衡策略相结合。
Nov, 2021
本文考虑如何基于无噪声样本和 Bandit 反馈来顺序优化黑盒函数,提出了一种新的 Gaussian 过程 Bandit 优化算法,并给出了算法无关的简单遗憾和累计遗憾的下界,进一步阐述了随机波动和目标函数的连续性对累计遗憾和简单遗憾的影响。
May, 2017
本文研究如何在小批次情况下,利用高斯过程(Gaussian Process, GP)臂式优化算法进行黑匣子训练优化,假设未知函数在内积核希尔伯特空间(RKHS)中具有较低的范数,并介绍了一种受到有限批量臂式算法启发的批算法,表明它在时间纬度为 T 时,使用 O (log (log T)) 个批次实现了累计遗憾上限 O^*(sqrt (T*gamma_T)),其中 O^*(*) 符号隐藏了与维度无关的对数因子,gamma_T 是与内核相关的最大信息增益,该上限对于几个感兴趣的内核来说几乎是最优的,并且我们的方法可以说是实现这种改进的算法中最简单的方法之一。此外,对于批次数目不依赖于 T 的情况,我们提出了我们算法的修正版本,并描述了遗憾如何受到批量数量的影响,重点关注平方指数和 Matern 内核。通过类似的算法无关下界证明了算法上限几乎是最小化的。
Oct, 2021
本文考虑带有 Bandit 反馈的序贝叶斯优化问题,采用了允许奖励函数随时间变化的公式。我们使用高斯过程对奖励函数进行建模,并介绍了高斯过程 UCB 算法的两个自然扩展。我们的主要贡献是这些算法的新颖遗憾界,提供了时间跨度和函数变化率之间权衡的明确刻画。我们在合成数据和实际数据上展示了算法的性能,并发现 TV-GP-UCB 的逐渐遗忘效果比 R-GP-UCB “尖锐重置” 更好,而且两种算法都显著优于传统的高斯过程 UCB 算法,因为它将陈旧数据和新数据视为平等。
Jan, 2016