使用高斯过程在 Bandit 环境下进行最优化估计

Oct, 2015

使用高斯过程在 Bandit 环境下进行最优化估计

Optimization as Estimation with Gaussian Processes in Bandit Settings

Zi Wang, Bolei Zhou, Stefanie Jegelka

TL;DR本文研究了一种直接利用未知函数 argmax 估计值的优化策略，并与 GP-UCB 和 GP-PI 策略建立了紧密联系。该方法的自动适应调整探索和利用的权衡，在机器人和视觉任务的广泛实证评估中表现出鲁棒性，通过性能 - 遗憾的界限说明了自适应调整的效果。

Abstract

Recently, there has been rising interest in bayesian optimization -- the optimization of an unknown function with assumptions usually expressed by a gaussian process (GP) prior. We study an →

bayesian optimization gaussian process optimization strategy exploration and exploitation regret

发现论文，激发创造

赌赢型高斯过程优化：无悔与实验设计

通过多臂赌博机问题和高斯过程来解决在优化一个未知、嘈杂及难以评估的函数的问题。我们在这个问题上得到了遗憾界，建立了高斯过程优化和实验设计之间的联系。通过实验，我们证明了 GP-UCB 可以优于其他启发式高斯过程优化方法。

Dec, 2009

高斯过程赌博优化中的勘探 - 开发权衡并行化

该论文研究了如何在贝叶斯全局优化中利用并行算法解决多臂赌博问题，提出了基于高斯过程的 GP-BUCB 算法，证明了与串行方法相比，该算法的累积遗憾仅增加一个独立于批量的常数因子，并在两个真实世界应用中展示了其有效性。

Jun, 2012

具有无偏高斯过程超参数估计的可证明高效的贝叶斯优化

本论文提出了一种新的使用多臂老虎机技术的贝叶斯优化方法，采用新型训练损失函数进行高斯过程超参数估计，以确保无偏估计，从而使其即使在未知真实超参数的情况下，也可以亚线性地收敛到目标函数的全局最优点。

Jun, 2023

时变高斯过程贝叶斯优化

本文考虑带有 Bandit 反馈的序贝叶斯优化问题，采用了允许奖励函数随时间变化的公式。我们使用高斯过程对奖励函数进行建模，并介绍了高斯过程 UCB 算法的两个自然扩展。我们的主要贡献是这些算法的新颖遗憾界，提供了时间跨度和函数变化率之间权衡的明确刻画。我们在合成数据和实际数据上展示了算法的性能，并发现 TV-GP-UCB 的逐渐遗忘效果比 R-GP-UCB “尖锐重置” 更好，而且两种算法都显著优于传统的高斯过程 UCB 算法，因为它将陈旧数据和新数据视为平等。

Jan, 2016

误设的高斯过程贝叶斯优化

本文提出了两种基于高斯过程（GP）方法的算法：一种乐观的 EC-GP-UCB 算法，另一种是一种消除型算法 Phased GP Uncertainty Sampling。本文给出了算法的上界，其依赖于时间长度和核心参数，证明了我们的算法在不知道错误情况下实现了对 ε 的最优依赖性，并证明了 EC-GP-UCB 可以与后悔边界平衡策略相结合。

Nov, 2021

具未知高斯过程先验的元贝叶斯优化的遗憾界

本文提出一种基于经验贝叶斯的方法，估计高斯过程先验，并构建无偏估计的后验，在线实验中达到近似零遗憾边界。

Nov, 2018

多保真度高斯过程贝叶斯优化

在支持多精度的贝叶斯优化中，MF-GP-UCB 方法可显着提高性能并降低遗憾值

Mar, 2016

随机高斯过程上置信区间的贝叶斯优化

为了提高贝叶斯优化的性能，我们开发了一种改进的高斯过程 UCB 采集函数。通过从一个分布中采样探索开发权衡参数，我们证明这允许期望的权衡参数能更好地适应问题而不会影响函数贝叶斯遗憾的约束，并提供结果表明我们的方法在一系列真实和合成问题中比 GP-UCB 获得了更好的性能。

Jun, 2020

伪贝叶斯优化

采用拟贝叶斯优化的框架，通过利用简单的局部回归和随机化先验构建来量化不确定性，并保证收敛性，有效地优化高维度的综合实验、超参数调整和机器人应用的例子中胜过最先进的基准测试。

Oct, 2023

使用上置信界和纯探索的并行高斯过程优化

本文提出了一种采用高斯过程、UCB 策略和纯探索相结合的算法（GP-UCB-PE），旨在解决在评估带有噪声的未知函数时最大化其价值的问题，通过并行迭代的方式进行批次评估，并分析了批次评估与纯顺序评估在累积遗憾方面的差异。理论和实证验证表明，在固定迭代成本的情况下，批次大小为 K 的情况下，GP-UCB-PE 算法具有比纯顺序版本更小的遗憾界。

Apr, 2013