基于Polyak步长和ERM中的函数分割的自适应学习率的函数值学习

Jul, 2023

基于Polyak步长和ERM中的函数分割的自适应学习率的函数值学习

Function Value Learning: Adaptive Learning Rates Based on the Polyak Stepsize and Function Splitting in ERM

Guillaume Garrigos, Robert M. Gower, Fabian Schaipp

TL;DR我们开发了SGD的变体与自适应步长，利用抽样的损失值，重点解决有限项求和问题，也称为经验风险最小化。我们详细介绍了一种理想的自适应方法$ exttt{SPS}_+$，它利用了抽样的损失值并假设知道最优情况下的抽样损失。我们展示了$ exttt{SPS}_+$在Lipschitz非平滑中实现了已知的最优收敛速率。然后，我们开发了$ exttt{FUVAL}$的变体，它逐渐学习最优情况下的损失值。我们以三个视角介绍了$ exttt{FUVAL}$，作为一种基于投影的方法，作为一种近似线性方法的变体，以及作为一种特定的在线SGD方法。然后，我们提出了$ exttt{FUVAL}$的收敛性分析和实验结果。我们的工作的缺点是，$ exttt{FUVAL}$的收敛性分析没有比SGD更具优势；另一个缺点是，目前只有$ exttt{FUVAL}$的全批次版本在步长敏感性方面相对于GD有轻微优势，随机版本相对于SGD没有明显优势。我们猜测需要较大的小批量数据才能使$ exttt{FUVAL}$具有竞争力。目前，本文研究的新$ exttt{FUVAL}$方法没有提供清晰的理论或实践优势，然而，我们选择将这个草稿在线上提供，因为其中使用了一些分析技巧，如$ exttt{SPS}_+$的非平滑分析，同时也展示了一种目前看似有趣但不能工作的方法。

Abstract

Here we develop variants of sgd (stochastic gradient descent) with an adaptive step size that make use of the sampled loss values. In particular, we focus on solving a finite sum-of-terms problem, also known as <