May, 2020

针对零阶对抗性 Bandit 凸优化的改进遗憾

TL;DR以信息论为基础,改进探索性分布以在零阶对抗性 bandit 凸优化的 minimax regret 的信息理论上界上证明其为 O (d^{2.5} 根号 n 对数 (n)),并提高 Bubeck 等人 (2017) 的 O (d^{9.5} 根号 n 对数 (n)^{7.5} 上界。