容忍腐败的高斯过程赌博优化
通过多臂赌博机问题和高斯过程来解决在优化一个未知、嘈杂及难以评估的函数的问题。我们在这个问题上得到了遗憾界,建立了高斯过程优化和实验设计之间的联系。通过实验,我们证明了 GP-UCB 可以优于其他启发式高斯过程优化方法。
Dec, 2009
本文提出了两种基于高斯过程(GP)方法的算法:一种乐观的 EC-GP-UCB 算法,另一种是一种消除型算法 Phased GP Uncertainty Sampling。本文给出了算法的上界,其依赖于时间长度和核心参数,证明了我们的算法在不知道错误情况下实现了对 ε 的最优依赖性,并证明了 EC-GP-UCB 可以与后悔边界平衡策略相结合。
Nov, 2021
本文研究在 Reproducing Kernel Hilbert Space(RKHS)中具有有界范数的函数的黑盒优化问题的算法无关下限,并提供了在标准噪声和各类扰动下的决策边界。
Aug, 2020
针对连续的、昂贵的评估的未知、有噪音和对抗性损坏的奖励函数的时序优化问题,提出了一种新的强化的消除型算法,称为 RGP-PE,它成功地平衡了对于削弱性的稳健性和探索和开发,其性能不会因存在(或不存在)对抗性污染而降低。
Feb, 2022
本文考虑带有 Bandit 反馈的序贝叶斯优化问题,采用了允许奖励函数随时间变化的公式。我们使用高斯过程对奖励函数进行建模,并介绍了高斯过程 UCB 算法的两个自然扩展。我们的主要贡献是这些算法的新颖遗憾界,提供了时间跨度和函数变化率之间权衡的明确刻画。我们在合成数据和实际数据上展示了算法的性能,并发现 TV-GP-UCB 的逐渐遗忘效果比 R-GP-UCB “尖锐重置” 更好,而且两种算法都显著优于传统的高斯过程 UCB 算法,因为它将陈旧数据和新数据视为平等。
Jan, 2016
我们考虑在具有 Matern 核的再生核希尔伯特空间(RKHS)中优化函数的问题,该核的光滑度参数为 ν,域为 [0,1]^d,在带有噪声的强化学习反馈下,我们提出了第一个实用的算法,即 π-GP-UCB 算法,对于所有 ν> 1 和 d≥1 都具有保证的子线性遗憾。经验证明,与其前身改进的 GP-UCB 相比,性能更好,计算可扩展性大大提高。
Jan, 2020
本文解决了若干向来未解的开放性问题,提供了超线性收敛速度,证明了 GP-UCB 算法在大多数流行核函数上具有最优回报,且证明了简化版本的自标准化集中不等式和超鞅技术是关键技术工具。
Jul, 2023
本文提出了两种基于高斯过程的算法 - 改进的 GP-UCB(IGP-UCB)和 GP-Thomson 采样(GP-TS),并给出了相应的遗憾边界,在连续的臂集上解决了随机赌徒问题。当期望奖励函数属于复制核希尔伯特空间(RKHS)时,边界成立。在实验评估和对合成和真实世界环境中现有算法的比较中,突出了所提出策略的优势。
Apr, 2017
本文研究了一种直接利用未知函数 argmax 估计值的优化策略,并与 GP-UCB 和 GP-PI 策略建立了紧密联系。该方法的自动适应调整探索和利用的权衡,在机器人和视觉任务的广泛实证评估中表现出鲁棒性,通过性能 - 遗憾的界限说明了自适应调整的效果。
Oct, 2015
研究连续性赌博机问题下高斯过程与多种学习算法(GP-UCB、GP-TS)的误差性能,通过独立的贝叶斯和频率学派来分析多项式差距,得出了均价核的特殊化,进一步提高了误差性能。
Sep, 2020