学习的形态：基于 Transformer 模型的各向异性和固有维度

ACLNov, 2023

学习的形态：基于 Transformer 模型的各向异性和固有维度

The Shape of Learning: Anisotropy and Intrinsic Dimensions in Transformer-Based Models

Anton Razzhigaev, Matvey Mikhalchuk, Elizaveta Goncharova, Ivan Oseledets, Denis Dimitrov...

TL;DR我们研究了 Transformer 结构中编码器和解码器之间的各向异性动态和内部维度，并发现解码器中的各向异性特征呈现出一个具有峰型曲线的独特模式，峰值位于中间层，与编码器中更均匀分布的各向异性特征不同。此外，我们发现嵌入的内部维度在训练的初始阶段增加，表明向更高维空间扩展，然后在训练末期经历降维的压缩阶段，暗示更紧凑的表示的提炼过程。我们的研究结果为理解编码器和解码器的嵌入特性提供了新的见解。

Abstract

In this study, we present an investigation into the anisotropy dynamics and intrinsic dimension of embeddings in transformer architectures

anisotropy dynamics intrinsic dimension transformer architectures encoders decoders

发现论文，激发创造

大型 Transformer 模型的隐藏表示的几何学

研究表明，transformers 在蛋白质语言任务和图像重建任务中的表示以非常相似的方式演化，从而呈现出数据流形在隐藏层中的几何和统计特性，而数据流形的语义结构在第一阶段触发。基于这些观察结果，建议使用内在维度作为无监督代理，以确定下游学习任务更合适的层次。

Feb, 2023

自注意力中的各向异性

通过实证观察，本文展示了基于 Transformer 的语言模型和其他模态下的 Transformer 存在的角度距离接近的问题，即各向异性问题。

Jan, 2024

Transformer 模型中的各向异性是否固有？

本文探讨了 self-supervised learning 方法在 transformer 架构的模型中出现的表示退化问题，提到了表征中的各向异性现象，并且指出该问题在表示学习、自然语言处理等领域都具有普适性。

Jun, 2023

多语言 BERT 嵌入空间中的各向同性分析

研究探讨如何解决多语种 BERT 模型在语言表示中的异构性以及异常维度，以提高其表现力和性能，并发现各种语言的嵌入空间在结构上部分类似。

Oct, 2021

关于为何费心于几何？论变压器嵌入式的线性分解的相关性

通过两种嵌入分解方法，研究机器翻译解码器的表示，结果表明分解导出的指标与模型性能有效相关，但不同运行之间的变化暗示了对这个问题更微妙的看法，测量结果的高变异性表明几何更多地反映模型特定的特征而不是句子特定的计算，并且类似的训练条件不能保证相似的向量空间。

Oct, 2023

探索多语言语言模型中的异性与异常值对于跨语义句子相似度的影响

通过对多个预训练的多语种语言模型进行研究，探究其输出中的异常维度和它们对各种跨语言语义相似性任务表现的影响。通常使用在平行资源上进行微调的 sentence transformers 在这些任务中表现更好，且表示更各向同性。研究人员通过不同的操作（例如消除异常维度、聚类基于同性等操作）来改进多语种表示。

Jun, 2023

离群维度扰乱变压器的原因是频率驱动

通过相关研究表明，Transformer-based 语言模型对剪枝通常非常强壮，但存在异常现象：仅禁用 BERT-base 的 110M 个参数中的 48 个，MNLI 的性能就下降了近 30％。该现象被认为与嵌入空间的几何形状有关，并且为减少未来模型中的异性提供了线索。

May, 2022

分析 Transformer 动力学作为嵌入空间中的移动

Transformer language models are explored to understand their mechanics, revealing that intelligent behaviors are mapped as trajectories in an embedding space, with vector composition and organization playing a key role in the model's abilities, including knowledge acquisition and intelligence. A semantic space theory is formalized and tested, providing evidence for the representation of semantic concepts in embedding vectors.

Aug, 2023

Transformer 的表征能力与局限性

本研究通过分析注意力层及其所在的变形器模型的表示能力，探讨这些模型相对于其他架构的优势和劣势，并重点关注了它们的内在复杂度参数，例如宽度、深度和嵌入维度。在正面方面，我们提出了一个稀疏平均任务，并证明了循环网络和前馈网络的复杂性随着输入规模的增大多项式增长，而变形器的复杂性仅随着输入规模的对数增长；此外，我们使用相同的构造来展示了变形器中大嵌入维度的必要性和作用。在消极方面，我们提出了一个三元组检测任务，其中注意力层的复杂性随输入规模线性增长；考虑到这种情况在实践中似乎很少出现，我们还提出了一些自然变种，可以通过注意力层有效地解决。证明技术强调了通信复杂度在变形器及其相关模型的分析中的价值，以及稀疏平均作为原型注意任务的作用，甚至在三元组检测的分析中也有用处。

Jun, 2023

有形状变形器：无限深度和宽度限制下的注意力模型

在深度学习理论中，表示的协方差矩阵被用作检查网络可训练性的代理，因此我们对具有跳过连接的修改 Softmax-based 注意力模型的协方差矩阵进行研究，发现在初始化时极限分布可以由深度到宽度比率索引的随机微分方程 (SDE) 描述，我们改变了 Transformer 的注意机制来实现一个明确的随机极限，通过将 Softmax 输出居中于单位倍数，并通过宽度相关的温度参数来调整 Softmax logits 的比例，通过相应的 SDE 检查网络的稳定性，并展示如何通过残差连接来优雅地控制漂移和扩散的尺度，存在稳定的 SDE 表示协方差结构的良好行为，即使对于非常大的深度和宽度，也可以防止深度注意模型的秩退化问题，最后，我们通过模拟展示了 SDE 对应的有限尺寸模型的惊人描述，我们称这些架构修改为形状变形器。

Jun, 2023