Aug, 2022

超级模型生态系统:领域自适应视角

TL;DR本文旨在通过领域适应性建立新兴超级模型范例的理论基础,其中首先在大量数据上训练一个非常大的模型(即超级模型),然后将其适应于各种特定领域,以此来减少计算和数据成本及碳排放。我们将超模型范例建模为两阶段扩散过程,预训练阶段模型参数从随机初值扩散并收敛到稳定分布,而微调阶段模型参数则被传输到另一个稳定分布。通过 PAC-Bayesian 框架,我们建立了一个 O (1/sqrt (N)) 的一般化界限。理论发现,微调阶段的泛化误差在领域适应中起主导作用。此外,我们的理论表明泛化性能由一种新的度量决定,该度量基于所收敛局部最小值的协方差矩阵和位移,并表征源域和目标域之间的领域差异。