Transformer 模型的数学视角
通过引入新颖的几何视角,本文揭示了 Transformer 操作的内部机制,主要贡献在于说明层归一化将潜在特征限制在一个超球面上,从而使得注意力能够塑造单词在这个表面上的语义表示。通过对经过预训练的 124M 参数的 GPT-2 模型进行探究,我们的发现揭示了早期层中的清晰查询 - 键注意力模式,并在更深层次上进一步构建了关于注意力头部的特定主题性的先前观察。利用这些几何洞察,我们给出了 Transformer 的直观理解,将其描述为沿着超球面的词粒子的轨迹的建模过程。
Sep, 2023
介绍了 Transformer 基本概念,描述了标准 Transformer 架构,包括一系列模型细化和常见应用,主要关注有助于理解 Transformer 及其变体的概念和对该领域产生影响的关键思想,从而揭示了这些模型的优势和局限性。
Nov, 2023
该研究设计了一个交互式写作辅助框架,它利用基于 Transformer 的语言模型为作者提供可能的续写文本主题,并允许作者选择其中一部分以引导生成,研究表明该框架的主题选择比标准的聚类方法更好且自监督的训练能够产生流畅且相关的句子。
Mar, 2021
本文将 Transformer 视为相互作用的粒子系统,描述了当权重不随时间变化时,学习表示的几何特征,证明了表示中的粒子会在时间趋于无穷时聚集到特定的极限对象,这取决于值矩阵的谱。同时,在一维情况下,证明了自我关注矩阵收敛于低秩布尔矩阵。这些结果的组合在数学上证实了 Vaswani 等人的经验观察,即在 Transformers 处理一系列标记时会出现 “leader”。
May, 2023
使用变压器架构生成、评估和训练数学表达式,将其作为字符级序列转换任务进行分析,建立在关注机制上的编码器和解码器上。三个模型分别被训练在数学符号变量和表达式的理解和评估上,最终达到了测试准确率高达 76.1%、78.8% 和 84.9%。
Dec, 2018
本文综述了 transformers 在语音技术各领域中的应用,旨在为研究者提供宝贵的资源,提供解决 transformers 在语音处理中面临的挑战的可行方法。
Mar, 2023
本文研究 transformers 学习的机制和语义结构,揭示了 embedding 层和 self-attention 层如何编码语义结构,具体表现为同主题单词之间的嵌入内积和自注意力相对较高。
Mar, 2023
本研究使用合成机制来考察 transformers 在处理全局信息与上下文信息时的权衡,发现这些模型相对较快地学习了全局信息,但对于上下文信息中的二元组的识别则较慢,同时探究了权重矩阵作为联想记忆的作用以及梯度如何使其在训练时进行学习的理论机制,同时研究了数据分布属性的作用。
Jun, 2023
ChatGPT 和相关生成 AI 产品所使用的深度学习架构被称为 transformers,从自然语言处理开始,transformers 和其所利用的自注意机制引起了自然科学领域的广泛关注。本文旨在介绍 transformers 给科学家,包括自注意机制的数学原理、原始 transformer 架构的描述,以及在天文学中应用于时间序列和图像数据的部分。此外,还提供了一个常见问题解答部分,供对生成 AI 感兴趣且希望用 transformers 解决研究问题的读者参考。
Oct, 2023