ICMLJun, 2021

神经网络的多速率训练

TL;DR本文提出了一种多速率神经网络训练方法,将神经网络参数划分为 “快速” 和 “慢速” 部分,在不同的时间尺度上进行训练,从而获得传输学习任务的显著计算加速。我们通过在视觉和 NLP 应用中 fine-tune 深度神经网络,证明了我们可以在几乎一半的时间内完成调整,而不影响所得模型的泛化性能。同时,我们分析了多速率方案的收敛性质,并与普通随机梯度下降算法进行比较。本文的贡献是揭示了使用多速率技术进行神经网络训练的潜力,并为未来的工作提供了几个起点。