随机函数下降

May, 2023

Random Function Descent

Felix Benning, Leif Döring

TL;DR在机器学习中普及的基于梯度的方法需要“超参数调整”，因为Armijo规则等回溯过程需要每一步的质量评估并且不适用于随机优化。本文提出了一种名为“随机函数下降”的优化方法，证明在贝叶斯优化场景下，RFD与梯度下降是相同的，但具有可计算的步长，在合成基准测试中超越了未调整的Adam方法，并提出一种启发式扩展，使其与调整后的Adam相当。

Abstract

While gradient based methods are ubiquitous in machine learning, selecting the right step size often requires "hyperparameter tuning". This is because backtracking procedures like Armijo's rule depend on quality