May, 2023

随机函数下降

TL;DR在机器学习中普及的基于梯度的方法需要“超参数调整”,因为Armijo规则等回溯过程需要每一步的质量评估并且不适用于随机优化。本文提出了一种名为“随机函数下降”的优化方法,证明在贝叶斯优化场景下,RFD与梯度下降是相同的,但具有可计算的步长,在合成基准测试中超越了未调整的Adam方法,并提出一种启发式扩展,使其与调整后的Adam相当。