Transformer 简介

Apr, 2023

An Introduction to Transformers

Richard E. Turner

TL;DR本文将准确而简洁介绍变形器体系结构的数学原理，以及设计决策背后的洞察。

Abstract

The transformer is a neural network component that can be used to learn useful representations of sequences or sets of datapoints. The transforme

transformer neural network natural language processing computer vision spatio-temporal modelling

发现论文，激发创造

变压器：理论基础和应用

该文章主要介绍了 Transformers，这是一种神经网络体系结构，用于解决各种问题，包括自然语言处理、声音、图像、强化学习和其他具有异构输入数据的问题。其独特之处在于其基于自我序列的自我注意力系统，本文介绍了构成此类型网络的数学和算法基础，以及其不同组件和变化的应用。

Feb, 2023

Transformer 简介：自然语言处理视角

介绍了 Transformer 基本概念，描述了标准 Transformer 架构，包括一系列模型细化和常见应用，主要关注有助于理解 Transformer 及其变体的概念和对该领域产生影响的关键思想，从而揭示了这些模型的优势和局限性。

Nov, 2023

Transformer 模型的正式算法

本文是一篇数学精确的论文，主要介绍 transformer 算法和结构，如何进行训练及其应用领域，读者需要熟悉基本的机器学习术语和神经网络架构，如 MLP 等。

Jul, 2022

视觉中的 Transformer：一项综述

本次研究对变压器模型在计算机视觉方面的应用进行了全面的回顾，包括自我关注、大规模预训练和双向编码等基础概念及其在图像分类、视频处理等多个领域的广泛应用。研究比较了不同技术在架构设计及实验价值方面的优缺点，并提出了未来的研究方向。

Jan, 2021

科学数据的 Transformers：天文学的教育性回顾

ChatGPT 和相关生成 AI 产品所使用的深度学习架构被称为 transformers，从自然语言处理开始，transformers 和其所利用的自注意机制引起了自然科学领域的广泛关注。本文旨在介绍 transformers 给科学家，包括自注意机制的数学原理、原始 transformer 架构的描述，以及在天文学中应用于时间序列和图像数据的部分。此外，还提供了一个常见问题解答部分，供对生成 AI 感兴趣且希望用 transformers 解决研究问题的读者参考。

Oct, 2023

Transformer 网络的拓扑结构

通过拓扑理论的视角对变压器神经网络的表达能力进行理论分析，发现许多常见的神经网络架构可以嵌入到分段线性函数的前拓扑中，而变压器必须位于其拓扑完成中，并且指出这两种网络家族实例化了不同的逻辑片段：前者是一阶的，而变压器是高阶推理器，并且将其分析与架构搜索和梯度下降相类比，将其整合到了对测控系统的框架中。

Mar, 2024

变压器是通用预测器

本研究发现了 Transformer 架构在语言模型方面的局限性，证明了它在信息理论意义上具有普适预测性，并在非渐近数据区域中分析了各种 Transformer 架构组件的性能，尤其是在数据有效训练的情境中。我们通过对合成和真实数据集的实验验证了我们的理论分析。

Jul, 2023

基于 Transformer 网络的序列建模近似理论

本文探讨了 Transformer 在逼近序列关系上的能力和结构属性，通过证明其 hypothesis 空间的普适逼近定理，得出了一种新的正则化概念，并对其逼近率进行了显式估计，进而揭示了其与传统序列建模方法之间的结构偏差。

May, 2023

Transformer 深度学习任务的应用综述

本文通过详细调查从 2017 至 2022 年间提出的 Transformer 模型，分析了其在自然语言处理、计算机视觉、多模态、音频和语音处理以及信号处理等领域中的应用及其对应的任务，并提供了一种分类法，以期为进一步研究及其未来的应用提供参考。

Jun, 2023

深度学习下重新思考时间序列预测：一步前行两步退后

本文介绍了 Transformer 在时间序列预测方面的应用，探讨了其局限性，并提出了一系列更好的性能和更少复杂度的其他模型。

Apr, 2023