Jul, 2024

跨參數調整與優化器的擴展指數

TL;DR参数扩展研究中,我们提出了一种新的参数化视角,探究了前期研究中关于参数和数据对齐的关键假设,并在较弱的假设和更广泛的优化器集合下得出新的理论结果。实证研究结果表明,所有参数化方法都可以实现超参数迁移,我们为标准参数化提出了一个新的逐层学习率计算方法,优于最大更新参数化方法。此外,我们指出了参数化中被忽视的一个方面——Adam中的epsilon参数必须正确缩放以避免梯度下溢,并提出了Adam-atan2,一个新的数值稳定、无尺度超参数的Adam版本。