Jul, 2023

基于Polyak步长和ERM中的函数分割的自适应学习率的函数值学习

TL;DR我们开发了SGD的变体与自适应步长,利用抽样的损失值,重点解决有限项求和问题,也称为经验风险最小化。我们详细介绍了一种理想的自适应方法$ exttt{SPS}_+$,它利用了抽样的损失值并假设知道最优情况下的抽样损失。我们展示了$ exttt{SPS}_+$在Lipschitz非平滑中实现了已知的最优收敛速率。然后,我们开发了$ exttt{FUVAL}$的变体,它逐渐学习最优情况下的损失值。我们以三个视角介绍了$ exttt{FUVAL}$,作为一种基于投影的方法,作为一种近似线性方法的变体,以及作为一种特定的在线SGD方法。然后,我们提出了$ exttt{FUVAL}$的收敛性分析和实验结果。我们的工作的缺点是,$ exttt{FUVAL}$的收敛性分析没有比SGD更具优势;另一个缺点是,目前只有$ exttt{FUVAL}$的全批次版本在步长敏感性方面相对于GD有轻微优势,随机版本相对于SGD没有明显优势。我们猜测需要较大的小批量数据才能使$ exttt{FUVAL}$具有竞争力。目前,本文研究的新$ exttt{FUVAL}$方法没有提供清晰的理论或实践优势,然而,我们选择将这个草稿在线上提供,因为其中使用了一些分析技巧,如$ exttt{SPS}_+$的非平滑分析,同时也展示了一种目前看似有趣但不能工作的方法。