Jun, 2024

隐蔽的洞:语言模型的拓扑学问题

TL;DR通过研究基于原始文本数据训练的自回归神经语言模型中出现的表示流形的拓扑属性,我们引入计算代数拓扑学的工具,使用其作为拓扑复杂度的度量标准(称为穿孔),以研究 GPT 的拓扑结构随深度和时间的演变,与门控循环模型进行比较,发现门控循环模型表现出更多的拓扑复杂性,并呈现了一种在所有自然语言中普遍存在但在合成生成数据中不存在的变化模式。该论文通过对这些模型在自然语言文本语料库中的句子条件下所引起的向量云的形状进行研究,详细分析了这些模型衍生的表示流形。该论文的主要贡献是关于 Transformer 与基于 LSTM 的神经网络架构的拓扑结构的显著观察,提示进一步研究这些神经网络的数学特性以理解大型 Transformer 语言模型的运作方式。我们希望这项工作能在自然语言处理领域激发更多对这个方向的探索。