May, 2023

稳定性惩罚自适应 Follow-the-regularized-leader:稀疏性,游戏依赖性与双重优势

TL;DR研究自适应学习率对于解决实际问题的重要性,在此基础上提出了一个新的自适应学习率 ——Stability-Penalty-Adaptive (SPA),可以进一步推广 Follow-the-Regularized-Leader (FTRL) 算法。该算法可以带来三种不同类型的自适应性:稀疏性、游戏依赖性和最佳方案等,其中,FTRL 算法常常用于求解棘手的多臂赌博问题,但现有算法假定稀疏性水平事先已知,新提出的学习率框架可以解决其不确定性,同时,该框架还可用于制定部分监督策略,并能同时实现 BOBW 算法和游戏依赖性的 bound。