Mar, 2024

训练早期对于超出分布泛化的影响

TL;DR研究早期神经网络训练对神经网络在分布内任务上的性能有显著影响,但对于神经网络在分布外任务上的泛化性能的影响尚未得到充分研究。本研究使用渐进解冻(即逐渐解冻训练参数)的方法调查学习动态和神经网络训练早期的分布外泛化关系,发现渐进解冻对分布内结果影响微小,但对分布外数据的泛化性能有很大影响;通过实验验证了初始训练阶段的Fisher信息矩阵迹和锐度的相对值可能是判断分布外泛化性能的指标,同时这些指标可以用来在神经网络早期训练中去除干预,以实现更好的分布外泛化性能。