隐蔽的洞：语言模型的拓扑学问题

Jun, 2024

隐蔽的洞：语言模型的拓扑学问题

Hidden Holes: topological aspects of language models

Stephen Fitz, Peter Romero, Jiyan Jonas Schneider

TL;DR通过研究基于原始文本数据训练的自回归神经语言模型中出现的表示流形的拓扑属性，我们引入计算代数拓扑学的工具，使用其作为拓扑复杂度的度量标准（称为穿孔），以研究 GPT 的拓扑结构随深度和时间的演变，与门控循环模型进行比较，发现门控循环模型表现出更多的拓扑复杂性，并呈现了一种在所有自然语言中普遍存在但在合成生成数据中不存在的变化模式。该论文通过对这些模型在自然语言文本语料库中的句子条件下所引起的向量云的形状进行研究，详细分析了这些模型衍生的表示流形。该论文的主要贡献是关于 Transformer 与基于 LSTM 的神经网络架构的拓扑结构的显著观察，提示进一步研究这些神经网络的数学特性以理解大型 Transformer 语言模型的运作方式。我们希望这项工作能在自然语言处理领域激发更多对这个方向的探索。

Abstract

We explore the topology of representation manifolds arising in autoregressive neural language models trained on raw text data. In order to study their properties, we introduce tools from computational algebraic topology, which we use as a basis for a measure of →

representation manifolds autoregressive neural language models topological complexity gpt-based large language models mathematical properties

发现论文，激发创造

深度语言表示中可分离流形的出现

该研究使用均场理论流形分析来分析来自大规模上下文嵌入模型的语言表示，发现在不同的模型家族中出现了语言流形的证据，尤其是在多义词和包含许多单词的词性类别中，此外，发现这些流形中的线性可分性的出现是由流形半径、维度和流形间相关性的共同减少所驱动的。

Jun, 2020

从流形学习的角度看深度神经网络架构

本文旨在比较和描述神经网络结构在几何和拓扑方面的内部表示和层间数据流动的拓扑和几何动态变化，并使用拓扑数据分析和持久性同调分形维数的概念，通过不同层次的数据集以及卷积神经网络和转换网络在计算机视觉和自然语言处理任务中的各种配置的广泛实验，为可解释的和可解释的 AI 的发展做出了贡献。

Jun, 2023

神经网络层表示的拓扑数据分析

该论文研究神经网络层内部如何保留拓扑特征。使用拓扑数据分析技术，计算了一个简单前馈神经网络的层表征在类克莱因瓶扭结构变化下的拓扑特征。在较早层，网络看起来近似于同胚，但在较深层时数据的拓扑结构被明显更改，导致持久同调无法计算这些特征。但在具有双射激活函数的网络中，类似的拓扑特征似乎可以更持久地存在。

Jul, 2022

Transformer 网络的拓扑结构

通过拓扑理论的视角对变压器神经网络的表达能力进行理论分析，发现许多常见的神经网络架构可以嵌入到分段线性函数的前拓扑中，而变压器必须位于其拓扑完成中，并且指出这两种网络家族实例化了不同的逻辑片段：前者是一阶的，而变压器是高阶推理器，并且将其分析与架构搜索和梯度下降相类比，将其整合到了对测控系统的框架中。

Mar, 2024

旅行之词：Transformer 的几何解释

通过引入新颖的几何视角，本文揭示了 Transformer 操作的内部机制，主要贡献在于说明层归一化将潜在特征限制在一个超球面上，从而使得注意力能够塑造单词在这个表面上的语义表示。通过对经过预训练的 124M 参数的 GPT-2 模型进行探究，我们的发现揭示了早期层中的清晰查询 - 键注意力模式，并在更深层次上进一步构建了关于注意力头部的特定主题性的先前观察。利用这些几何洞察，我们给出了 Transformer 的直观理解，将其描述为沿着超球面的词粒子的轨迹的建模过程。

Sep, 2023

理解语境化表示的潜在拓扑感知

通过使用结构化的变分自编码器进行完全无监督的学习，得出语境化嵌入的表征空间存在潜在状态的网络，这些状态不仅作为表示流形的拓扑结构的锚点，还揭示了对句子进行编码的内部机制。同时，表明句子作为潜在网络上的遍历，状态转换链编码了句法模板，状态 - 词发射填充了内容。

Jun, 2022

大型 GPT 模型在语言表示中发现道德维度了吗？句子嵌入的拓扑研究

我们研究了 Chat-GPT 的基础语言模型中神经活动的拓扑结构，并分析了其相对于公平性的度量标准。我们开发了一种新方法，通过计算一种公平性度量标准来理解人类对公平性的评估因素，并通过与此度量标准相关的热力图对简单复形进行着色，从而产生可读的高维句子流形的可视化结果。我们的研究结果表明，基于 GPT-3.5 的语言模型的句子嵌入可以分解为公平和不公平道德判断对应的两个子流形，这表明 GPT 基于语言模型在其表示空间中发展了道德维度，并在其训练过程中引发了对公平性的理解。

Sep, 2023

利用代数拓扑描述神经网络嵌入空间的演化

通过 Betti 数我们研究了在经过深度神经网络的各个层时，特征嵌入空间的拓扑结构如何变化。我们使用了拓扑同调理论中的方格同调进行了扩展分析，使用了各种流行的深度架构和真实图像数据集。我们证明随着深度的增加，一个拓扑上复杂的数据集会被转换成一个简单的数据集，Betti 数会取得最低可能的值。拓扑复杂度的衰减速率可以量化架构选择对泛化能力的影响。此外，我们从表示学习的角度强调了几种不变性，例如 (1) 相似数据集上的体系结构、(2) 深度可变的嵌入空间、(3) 嵌入空间与输入分辨率 / 大小以及 (4) 数据子采样。为了进一步证明网络的表达能力与泛化能力之间的联系，我们考虑了下游分类任务 (迁移学习) 中预训练模型的排序任务。与现有方法相比，所提出的度量方法与通过微调预训练模型实际可达到的准确性具有更好的相关性。

Nov, 2023

LangTopo: 利用分词的拓扑建模将图形的语言描述对齐

该论文介绍了一种新的框架 LangTopo，通过构建代码簿量化了 GNN 和 LLM 的图结构建模能力，并通过一致性最大化的过程将 LLM 的文本描述与 GNN 的拓扑建模对齐，使 LLM 能够学习捕捉图结构的能力，从而能够独立处理图结构化数据。通过在多个数据集上展示我们提出的方法的有效性。

Jun, 2024

大型 Transformer 模型的隐藏表示的几何学

研究表明，transformers 在蛋白质语言任务和图像重建任务中的表示以非常相似的方式演化，从而呈现出数据流形在隐藏层中的几何和统计特性，而数据流形的语义结构在第一阶段触发。基于这些观察结果，建议使用内在维度作为无监督代理，以确定下游学习任务更合适的层次。

Feb, 2023