Jun, 2024

关于逐层表示相似性的研究:用于具有单个分类器的多出口模型的应用

TL;DR我们研究了 transformer 模型中隐藏层之间的表示相似性,并展示了一个简单的样本级余弦相似度度量能够捕捉到这种相似性,并与复杂的统计方法 CCA 一致,通过提出对齐训练方法,我们增强了内部表示之间的相似性,并得到了具有多个隐藏层输出的模型,与标准训练相比,这些模型在中间层具有更高的准确性,并且当作为多出口模型时,它们能够与标准的多出口架构达到相当的性能,而我们的工作是首次证明一个普通分类器就足够用于多出口模型。