大型 Transformer 模型的隐藏表示的几何学

Feb, 2023

大型 Transformer 模型的隐藏表示的几何学

The geometry of hidden representations of large transformer models

Lucrezia Valeriani, Diego Doimo, Francesca Cuturello, Alessandro Laio, Alessio Ansuini...

TL;DR研究表明，transformers 在蛋白质语言任务和图像重建任务中的表示以非常相似的方式演化，从而呈现出数据流形在隐藏层中的几何和统计特性，而数据流形的语义结构在第一阶段触发。基于这些观察结果，建议使用内在维度作为无监督代理，以确定下游学习任务更合适的层次。

Abstract

Large transformers are powerful architectures for self-supervised analysis of data of various nature, ranging from protein sequences to text to images. In these models, the data representation in the hidden layer

transformers self-supervised analysis geometric properties intrinsic dimension semantic complexity

发现论文，激发创造

深度神经网络中数据表示的内在维度

研究了深度神经网络的几何属性和数据表示的内在维度，发现最后一个隐藏层的内在维度预测测试集合的分类准确性，这证明了可以广泛应用的神经网络是将数据转换为低维非线性流形的网络。

May, 2019

旅行之词：Transformer 的几何解释

通过引入新颖的几何视角，本文揭示了 Transformer 操作的内部机制，主要贡献在于说明层归一化将潜在特征限制在一个超球面上，从而使得注意力能够塑造单词在这个表面上的语义表示。通过对经过预训练的 124M 参数的 GPT-2 模型进行探究，我们的发现揭示了早期层中的清晰查询 - 键注意力模式，并在更深层次上进一步构建了关于注意力头部的特定主题性的先前观察。利用这些几何洞察，我们给出了 Transformer 的直观理解，将其描述为沿着超球面的词粒子的轨迹的建模过程。

Sep, 2023

自监督变形器中抽象表征的形成与功能

通过研究小规模 transformer 在重建部分遮蔽的简单蓝图可视场景方面的内在机制，我们发现网络发展了一种包含数据集的所有语义特征的中间抽象表示或抽象，这些抽象表现为低维流形，其中语义相关令牌的嵌入短暂地收敛，从而实现了对下游计算的泛化。我们还引入了一种语言增强架构（LEA），旨在鼓励网络表达其计算过程，发现 LEA 发展了一种易于解释的以抽象为中心的语言，使我们更容易访问和指导网络的决策过程。

Dec, 2023

语言变形机中高维抽象阶段的出现

一个关键的高维度阶段可以解释许多通用语言模型架构中的核心语言处理，由于其几何属性与功能的关系需要进一步研究。

May, 2024

表示形式作为语言：一个信息论解释的框架

通过一种新颖的可解释性方法，该论文使用信息论度量量化了神经模型对输入的表示的结构化程度，从而预测模型的泛化能力，并发现模型的代表性和噪声强度有关。此外，研究还研究了模型大小对表示空间结构的影响。

Jun, 2024

深度神经网络中的降维压缩和扩展

本研究发现神经网络可以学习较低维度的流形，从而在高维数据空间中分解数据，同时又能取得良好的泛化性能，重点关注降维和流形的内在维度等方面。

Jun, 2019

学习的形态：基于 Transformer 模型的各向异性和固有维度

我们研究了 Transformer 结构中编码器和解码器之间的各向异性动态和内部维度，并发现解码器中的各向异性特征呈现出一个具有峰型曲线的独特模式，峰值位于中间层，与编码器中更均匀分布的各向异性特征不同。此外，我们发现嵌入的内部维度在训练的初始阶段增加，表明向更高维空间扩展，然后在训练末期经历降维的压缩阶段，暗示更紧凑的表示的提炼过程。我们的研究结果为理解编码器和解码器的嵌入特性提供了新的见解。

Nov, 2023

关于为何费心于几何？论变压器嵌入式的线性分解的相关性

通过两种嵌入分解方法，研究机器翻译解码器的表示，结果表明分解导出的指标与模型性能有效相关，但不同运行之间的变化暗示了对这个问题更微妙的看法，测量结果的高变异性表明几何更多地反映模型特定的特征而不是句子特定的计算，并且类似的训练条件不能保证相似的向量空间。

Oct, 2023

视觉转换器嵌入空间的引人注目的等效结构

基于视觉转换器作为例子，通过分析和系统实验，我们展示了表示空间由大型分段线性子空间和局部正常空间组成，存在着不同输入具有相同表示和在视觉上难以区分的不同表示的输入。这些经验结果进一步通过基础模型的局部方向估计来验证。因此，得到的表示会改变下游模型的结果，并且这样的模型容易过度泛化且具有有限的迁移能力。

Jan, 2024

可视化和测量 BERT 的几何形状

本文描述了一种特别有效的模型 BERT，它能够通过从语义和句法子空间中提取一般有用的语言特征来代表语言信息，同时还探讨了注意力矩阵和单词嵌入中的句法表示，并提出了一种数学证明来解释这些表示的几何形态。

Jun, 2019