Transformer 模型中的各向异性是否固有？

ACLJun, 2023

Transformer 模型中的各向异性是否固有？

Is Anisotropy Inherent to Transformers?

Nathan Godey, Éric de la Clergerie, Benoît Sagot

TL;DR本文探讨了 self-supervised learning 方法在 transformer 架构的模型中出现的表示退化问题，提到了表征中的各向异性现象，并且指出该问题在表示学习、自然语言处理等领域都具有普适性。

Abstract

The representation degeneration problem is a phenomenon that is widely observed among self-supervised learning methods based on Transformers. In NLP, it takes the form of →

representation degeneration self-supervised learning anisotropy hidden representations transformers-based models

发现论文，激发创造

自注意力中的各向异性

通过实证观察，本文展示了基于 Transformer 的语言模型和其他模态下的 Transformer 存在的角度距离接近的问题，即各向异性问题。

Jan, 2024

学习的形态：基于 Transformer 模型的各向异性和固有维度

我们研究了 Transformer 结构中编码器和解码器之间的各向异性动态和内部维度，并发现解码器中的各向异性特征呈现出一个具有峰型曲线的独特模式，峰值位于中间层，与编码器中更均匀分布的各向异性特征不同。此外，我们发现嵌入的内部维度在训练的初始阶段增加，表明向更高维空间扩展，然后在训练末期经历降维的压缩阶段，暗示更紧凑的表示的提炼过程。我们的研究结果为理解编码器和解码器的嵌入特性提供了新的见解。

Nov, 2023

探索多语言语言模型中的异性与异常值对于跨语义句子相似度的影响

通过对多个预训练的多语种语言模型进行研究，探究其输出中的异常维度和它们对各种跨语言语义相似性任务表现的影响。通常使用在平行资源上进行微调的 sentence transformers 在这些任务中表现更好，且表示更各向同性。研究人员通过不同的操作（例如消除异常维度、聚类基于同性等操作）来改进多语种表示。

Jun, 2023

自然语言生成模型训练中的表示退化问题

本文研究了神经网络训练自然语言生成任务模型时的 “表示退化问题”，提出一种新的正则化方法来解决这个问题，并在语言建模和机器翻译任务上实验验证了其性能优于基准算法。

Jul, 2019

稳定各向异性正则化

本文提出一种新的正则化方法 I-STAR，该方法可以在训练过程中增加或减少嵌入空间中的等向性水平，并发现在大多数任务和模型中减少等向性可以改善性能。

May, 2023

多语言 BERT 嵌入空间中的各向同性分析

研究探讨如何解决多语种 BERT 模型在语言表示中的异构性以及异常维度，以提高其表现力和性能，并发现各种语言的嵌入空间在结构上部分类似。

Oct, 2021

各向同性表示可以提高密集检索性能

本研究使用 Normalizing Flow 和 whitening 等无监督的后处理方法，提出一种基于令牌和序列的方法来处理密集检索模型的表示，优化 BERT 表示的各向同性分布，实验结果表明，这种方法可以显著提高文档排序的性能，并在处理不同的测试数据集时具有潜在的鲁棒性。

Sep, 2022

优化语句表示以提升语义和检索速度

本文发现传统机器学习中的白化操作同样可以增强句子表示的等向性并取得较为显著的性能提升，同时可以减少句子表示的存储成本和加速模型检索速度。

Mar, 2021

降低各向异性感知的后期处理（LASeR）：朝向各向同性且感知丰富的表示

研究了上下文单词表示模型的词义消歧能力，发现多数深度预训练语言模型的上下文单词表示在几何结构上高度异性化，并存在表示退化问题，提出了一种低异性度词义修正方法（LASeR），以解决上下文单词表示的表示退化问题。

Apr, 2021

离群维度扰乱变压器的原因是频率驱动

通过相关研究表明，Transformer-based 语言模型对剪枝通常非常强壮，但存在异常现象：仅禁用 BERT-base 的 110M 个参数中的 48 个，MNLI 的性能就下降了近 30％。该现象被认为与嵌入空间的几何形状有关，并且为减少未来模型中的异性提供了线索。

May, 2022