Feb, 2024

线性模态连接性的基于置换的权重匹配分析

TL;DR最近,Ainsworth 等人表明,在模型参数的置换搜索中使用权重匹配(WM)来最小化 $L_2$ 距离有效地识别符合线性模态连通性(LMC)的排列,其中在不同种子训练的两个独立模型之间的线性路径上的损失保持几乎不变。本文提供了关于使用 WM 的 LMC 的理论分析,这对于理解随机梯度下降的有效性及其在模型合并等领域的应用至关重要。我们首先通过实验和理论表明,WM 找到的排列并没有明显减小两个模型之间的 $L_2$ 距离,且 LMC 的发生并不仅仅是由于 WM 本身的距离缩小。然后,我们提供理论见解,表明排列可以改变每层权重矩阵奇异向量的方向,但不会改变奇异值。这一发现表明,WM 找到的排列主要是使得与大奇异值相关的奇异向量在模型之间更加接近。这种对齐使得后合并模型在功能上与前合并模型保持相似,从而容易满足 LMC。最后,我们分析了 WM 和依赖于数据集的直通估计器(STE)之间的差异,并表明 WM 在合并三个或更多模型时表现更好。