Transformer 简介
该文章主要介绍了 Transformers,这是一种神经网络体系结构,用于解决各种问题,包括自然语言处理、声音、图像、强化学习和其他具有异构输入数据的问题。其独特之处在于其基于自我序列的自我注意力系统,本文介绍了构成此类型网络的数学和算法基础,以及其不同组件和变化的应用。
Feb, 2023
介绍了 Transformer 基本概念,描述了标准 Transformer 架构,包括一系列模型细化和常见应用,主要关注有助于理解 Transformer 及其变体的概念和对该领域产生影响的关键思想,从而揭示了这些模型的优势和局限性。
Nov, 2023
本文是一篇数学精确的论文,主要介绍 transformer 算法和结构,如何进行训练及其应用领域,读者需要熟悉基本的机器学习术语和神经网络架构,如 MLP 等。
Jul, 2022
本次研究对变压器模型在计算机视觉方面的应用进行了全面的回顾,包括自我关注、大规模预训练和双向编码等基础概念及其在图像分类、视频处理等多个领域的广泛应用。研究比较了不同技术在架构设计及实验价值方面的优缺点,并提出了未来的研究方向。
Jan, 2021
ChatGPT 和相关生成 AI 产品所使用的深度学习架构被称为 transformers,从自然语言处理开始,transformers 和其所利用的自注意机制引起了自然科学领域的广泛关注。本文旨在介绍 transformers 给科学家,包括自注意机制的数学原理、原始 transformer 架构的描述,以及在天文学中应用于时间序列和图像数据的部分。此外,还提供了一个常见问题解答部分,供对生成 AI 感兴趣且希望用 transformers 解决研究问题的读者参考。
Oct, 2023
通过拓扑理论的视角对变压器神经网络的表达能力进行理论分析,发现许多常见的神经网络架构可以嵌入到分段线性函数的前拓扑中,而变压器必须位于其拓扑完成中,并且指出这两种网络家族实例化了不同的逻辑片段:前者是一阶的,而变压器是高阶推理器,并且将其分析与架构搜索和梯度下降相类比,将其整合到了对测控系统的框架中。
Mar, 2024
本研究发现了 Transformer 架构在语言模型方面的局限性,证明了它在信息理论意义上具有普适预测性,并在非渐近数据区域中分析了各种 Transformer 架构组件的性能,尤其是在数据有效训练的情境中。我们通过对合成和真实数据集的实验验证了我们的理论分析。
Jul, 2023
本文探讨了 Transformer 在逼近序列关系上的能力和结构属性,通过证明其 hypothesis 空间的普适逼近定理,得出了一种新的正则化概念,并对其逼近率进行了显式估计,进而揭示了其与传统序列建模方法之间的结构偏差。
May, 2023
本文通过详细调查从 2017 至 2022 年间提出的 Transformer 模型,分析了其在自然语言处理、计算机视觉、多模态、音频和语音处理以及信号处理等领域中的应用及其对应的任务,并提供了一种分类法,以期为进一步研究及其未来的应用提供参考。
Jun, 2023