Feb, 2024

二阶方法在赌局优化和控制中的应用

TL;DR本文介绍了一种简单且实用的在线牛顿步骤算法,该算法在一类称为 κ- 凸的凸函数中具有最优(以时间长度衡量)的遗憾界,并且在包括线性、二次和广义线性模型在内的广泛实际损失函数中为最高效的已知方法。此外,我们研究了我们的二阶赌博算法在具有一定仿射结构的损失函数中适应在线凸优化,我们证明了延伸算法达到最优遗憾界,从而解决了在 gradu2020non 和 sun2023optimal 中提出的一个开放问题,即完全敌对噪声模型下的赌博 LQR/LQG 问题。最后,我们证明了 BCO 与(非仿射)内存的更一般问题更难,在光滑且二次损失的假设下,导出了一个 T^{2/3} 遗憾界的下界。