带两点反馈的赌博机和零阶凸优化的最优算法

Jul, 2015

带两点反馈的赌博机和零阶凸优化的最优算法

An Optimal Algorithm for Bandit and Zero-Order Convex Optimization with Two-Point Feedback

Ohad Shamir

TL;DR本文介绍了一种基于梯度估计器的简单算法，可以在convex Lipschitz函数方面实现带有两个反馈信息的bandit convex optimization和带有两个函数评估的zero-order stochastic convex optimization问题的最优解，同时在比之前的算法更加简单的前提下可以扩展到非欧几里得问题。

Abstract

We consider the closely related problems of bandit convex optimization with two-point feedback, and zero-order stochastic convex optimization with two function evaluations per round. We provide a simple algorithm