Oct, 2015

使用高斯过程在 Bandit 环境下进行最优化估计

TL;DR本文研究了一种直接利用未知函数 argmax 估计值的优化策略,并与 GP-UCB 和 GP-PI 策略建立了紧密联系。该方法的自动适应调整探索和利用的权衡,在机器人和视觉任务的广泛实证评估中表现出鲁棒性,通过性能 - 遗憾的界限说明了自适应调整的效果。