Jul, 2015
带两点反馈的赌博机和零阶凸优化的最优算法
An Optimal Algorithm for Bandit and Zero-Order Convex Optimization with
Two-Point Feedback
TL;DR本文介绍了一种基于梯度估计器的简单算法,可以在convex Lipschitz函数方面实现带有两个反馈信息的bandit convex optimization和带有两个函数评估的zero-order stochastic convex optimization问题的最优解,同时在比之前的算法更加简单的前提下可以扩展到非欧几里得问题。