Feb, 2024
二阶方法在赌局优化和控制中的应用
Second Order Methods for Bandit Optimization and Control
TL;DR本文介绍了一种简单且实用的在线牛顿步骤算法,该算法在一类称为κ-凸的凸函数中具有最优(以时间长度衡量)的遗憾界,并且在包括线性、二次和广义线性模型在内的广泛实际损失函数中为最高效的已知方法。此外,我们研究了我们的二阶赌博算法在具有一定仿射结构的损失函数中适应在线凸优化,我们证明了延伸算法达到最优遗憾界,从而解决了在gradu2020non和sun2023optimal中提出的一个开放问题,即完全敌对噪声模型下的赌博LQR/LQG问题。最后,我们证明了BCO与(非仿射)内存的更一般问题更难,在光滑且二次损失的假设下,导出了一个T^{2/3}遗憾界的下界。