May, 2024

快速训练,表现更佳:过参数化模型中的模块自适应训练

TL;DR通过研究超参数模型的细粒度、模块级的学习动态,本文提出了一种更高效、更有成效的训练策略。实证研究表明,模块的学习质量与其模块神经切线核的主特征值密切相关。在此发现的基础上,提出了模块自适应训练策略,通过选择更新具有超过动态阈值的主特征值,优化模型的学习和性能。实验结果显示,该策略几乎可以减少一半的计算成本,并得到了比基准方法更高的准确性。