May, 2024

Grokfast:通过增强慢梯度加速洞察力的理解

TL;DR对于机器学习中的一个令人困惑的伪现象,即迟滞推广现象,我们通过将参数的一系列梯度作为随时间变化的时间随机信号进行频谱分解,加速了该现象,并提出了少量代码来放大梯度的缓慢变化部分,其中实验表明我们的算法适用于涉及图像、语言和图形的各种任务,使得这种突然泛化现象更具实际可行性。