Mar, 2024

Follow-the-Regularized-Leader 竞争比分析及最佳学习率自适应

TL;DRFollow-The-Regularized-Leader (FTRL) 在在线学习中是一种有效且多功能的方法,调整其学习率的问题被形式化为序贯决策问题,并引入了竞争分析的框架。我们提出的学习率更新规则通过与竞争比率的下限相差一个常数因子来达到上限的目的,对于惩罚项的组成部分进行(近似)单调性的刻画,并针对一些特定环境构建了 BOBW 算法,从而在多臂赌博机、图赌博机、线性赌博机和上下文赌博机等不同设置下取得更紧的后悔界限和更广泛的算法适用性。