Transformer 模型中的各向异性是否固有?
我们研究了 Transformer 结构中编码器和解码器之间的各向异性动态和内部维度,并发现解码器中的各向异性特征呈现出一个具有峰型曲线的独特模式,峰值位于中间层,与编码器中更均匀分布的各向异性特征不同。此外,我们发现嵌入的内部维度在训练的初始阶段增加,表明向更高维空间扩展,然后在训练末期经历降维的压缩阶段,暗示更紧凑的表示的提炼过程。我们的研究结果为理解编码器和解码器的嵌入特性提供了新的见解。
Nov, 2023
通过对多个预训练的多语种语言模型进行研究,探究其输出中的异常维度和它们对各种跨语言语义相似性任务表现的影响。通常使用在平行资源上进行微调的 sentence transformers 在这些任务中表现更好,且表示更各向同性。研究人员通过不同的操作(例如消除异常维度、聚类基于同性等操作)来改进多语种表示。
Jun, 2023
本文研究了神经网络训练自然语言生成任务模型时的 “表示退化问题”,提出一种新的正则化方法来解决这个问题,并在语言建模和机器翻译任务上实验验证了其性能优于基准算法。
Jul, 2019
本研究使用 Normalizing Flow 和 whitening 等无监督的后处理方法,提出一种基于令牌和序列的方法来处理密集检索模型的表示,优化 BERT 表示的各向同性分布,实验结果表明,这种方法可以显著提高文档排序的性能,并在处理不同的测试数据集时具有潜在的鲁棒性。
Sep, 2022
研究了上下文单词表示模型的词义消歧能力,发现多数深度预训练语言模型的上下文单词表示在几何结构上高度异性化,并存在表示退化问题,提出了一种低异性度词义修正方法(LASeR),以解决上下文单词表示的表示退化问题。
Apr, 2021
通过相关研究表明,Transformer-based 语言模型对剪枝通常非常强壮,但存在异常现象:仅禁用 BERT-base 的 110M 个参数中的 48 个,MNLI 的性能就下降了近 30%。该现象被认为与嵌入空间的几何形状有关,并且为减少未来模型中的异性提供了线索。
May, 2022