Transformer 模型的正式算法

Jul, 2022

Formal Algorithms for Transformers

Mary Phuong, Marcus Hutter

TL;DR本文是一篇数学精确的论文，主要介绍 transformer 算法和结构，如何进行训练及其应用领域，读者需要熟悉基本的机器学习术语和神经网络架构，如 MLP 等。

Abstract

This document aims to be a self-contained, mathematically precise overview of transformer architectures and algorithms (*not* results). It covers what transformers are, how they are trained, what they are used fo

transformer architectures algorithms training neural networks ml terminology

发现论文，激发创造

Transformer 简介

本文将准确而简洁介绍变形器体系结构的数学原理，以及设计决策背后的洞察。

Apr, 2023

Transformer 简介：自然语言处理视角

介绍了 Transformer 基本概念，描述了标准 Transformer 架构，包括一系列模型细化和常见应用，主要关注有助于理解 Transformer 及其变体的概念和对该领域产生影响的关键思想，从而揭示了这些模型的优势和局限性。

Nov, 2023

变压器：理论基础和应用

该文章主要介绍了 Transformers，这是一种神经网络体系结构，用于解决各种问题，包括自然语言处理、声音、图像、强化学习和其他具有异构输入数据的问题。其独特之处在于其基于自我序列的自我注意力系统，本文介绍了构成此类型网络的数学和算法基础，以及其不同组件和变化的应用。

Feb, 2023

科学数据的 Transformers：天文学的教育性回顾

ChatGPT 和相关生成 AI 产品所使用的深度学习架构被称为 transformers，从自然语言处理开始，transformers 和其所利用的自注意机制引起了自然科学领域的广泛关注。本文旨在介绍 transformers 给科学家，包括自注意机制的数学原理、原始 transformer 架构的描述，以及在天文学中应用于时间序列和图像数据的部分。此外，还提供了一个常见问题解答部分，供对生成 AI 感兴趣且希望用 transformers 解决研究问题的读者参考。

Oct, 2023

Transformers 综述

本文综述了各种 X-formers，包括 Transformer 的变体，提出了一个新的分类法并从结构修改、预训练和应用三个方面介绍了各种 X-formers，并提出了未来研究的一些潜在方向。

Jun, 2021

高效 Transformer：综述

本研究总结了多个领域的最新端到端基于 Transformer 模型的 X-former 模型，强调了计算和内存效率

Sep, 2020

从 Transformer 中提取有限状态机

我们提出了一种专门为 Transformer 模型设计的自动机提取算法，通过对 Transformer 模型的内部潜在表示进行转换过程的跟踪并使用经典的教学方法来将其解释为确定有限状态自动机（DFA），揭示了 Transformer 模型如何理解形式语言的结构，从而增强了 Transformer 模型的可解释性并深入了解了机器学习系统如何处理形式语言。

Jun, 2024

Transformer 深度学习任务的应用综述

本文通过详细调查从 2017 至 2022 年间提出的 Transformer 模型，分析了其在自然语言处理、计算机视觉、多模态、音频和语音处理以及信号处理等领域中的应用及其对应的任务，并提供了一种分类法，以期为进一步研究及其未来的应用提供参考。

Jun, 2023

使用 Transformers 进行线性代数

通过例子，Transformer 可以学习执行数字计算。作者从基本矩阵操作到特征值分解和求逆，研究了线性代数的九个问题，并引入和讨论了四种编码方案以表示实数。通过使用随机矩阵训练的 Transformers 在所有问题上都能达到高的准确度，并且它们的模型对噪声具有鲁棒性，在训练分布之外也具有泛化能力。特别是，针对 Laplace 分布的特征值进行训练的模型对不同类别的矩阵具有泛化能力：Wigner 矩阵或具有正特征值的矩阵。反之则不成立。

Dec, 2021

Transformer 架构所需的量子线性代数

生成式机器学习方法如大型语言模型正在革新文本和图像的创作。本研究通过容错性量子计算的视角来调查变压器架构。通过将预训练的权重矩阵作为区块编码来构建变压器的查询、关键和值矩阵。我们展示了如何使用 Hadamard 乘积对自注意矩阵的行逐行应用 softmax 函数来准备区块编码。此外，我们结合了量子子程序来构建变压器中的重要构件，包括残余连接、层归一化和前馈神经网络。我们的子程序准备了变压器输出的振幅编码，可以进行测量以获得预测结果。我们讨论了获取量子优势的潜力和挑战。

Feb, 2024