NIPSSep, 2023

关于自监督 Transformer 中的分离归一化

TL;DR本研究提出了一种简单修改的方法,该方法利用了单独的标准化层对标记和 [CLS] 符号进行处理,以更好地捕捉它们的独特特征并增强下游任务的性能。实验证明,通过使用单独的标准化层,[CLS] 嵌入可以更好地编码全局上下文信息,并在其非均匀空间中分布更加均匀。将传统的标准化层替换为两个单独的层后,我们观察到图像、自然语言和图形领域的平均性能提高了 2.7%。