Jan, 2016

时变高斯过程贝叶斯优化

TL;DR本文考虑带有 Bandit 反馈的序贝叶斯优化问题,采用了允许奖励函数随时间变化的公式。我们使用高斯过程对奖励函数进行建模,并介绍了高斯过程 UCB 算法的两个自然扩展。我们的主要贡献是这些算法的新颖遗憾界,提供了时间跨度和函数变化率之间权衡的明确刻画。我们在合成数据和实际数据上展示了算法的性能,并发现 TV-GP-UCB 的逐渐遗忘效果比 R-GP-UCB “尖锐重置” 更好,而且两种算法都显著优于传统的高斯过程 UCB 算法,因为它将陈旧数据和新数据视为平等。