本文将准确而简洁介绍变形器体系结构的数学原理,以及设计决策背后的洞察。
Apr, 2023
ChatGPT 和相关生成 AI 产品所使用的深度学习架构被称为 transformers,从自然语言处理开始,transformers 和其所利用的自注意机制引起了自然科学领域的广泛关注。本文旨在介绍 transformers 给科学家,包括自注意机制的数学原理、原始 transformer 架构的描述,以及在天文学中应用于时间序列和图像数据的部分。此外,还提供了一个常见问题解答部分,供对生成 AI 感兴趣且希望用 transformers 解决研究问题的读者参考。
Oct, 2023
本文通过详细调查从 2017 至 2022 年间提出的 Transformer 模型,分析了其在自然语言处理、计算机视觉、多模态、音频和语音处理以及信号处理等领域中的应用及其对应的任务,并提供了一种分类法,以期为进一步研究及其未来的应用提供参考。
Jun, 2023
介绍了 Transformer 基本概念,描述了标准 Transformer 架构,包括一系列模型细化和常见应用,主要关注有助于理解 Transformer 及其变体的概念和对该领域产生影响的关键思想,从而揭示了这些模型的优势和局限性。
Nov, 2023
本文回顾了将 Transformer 应用于计算机视觉任务中的视觉 Transformer 模型,并分为不同任务类别,分析它们的优点和缺点,同时也介绍了将 Transformer 应用到实际设备应用的有效方法。最后,本文还探讨了计算机视觉中的自注意机制以及视觉 Transformer 面临的挑战及进一步研究方向。
Dec, 2020
本文是一篇数学精确的论文,主要介绍 transformer 算法和结构,如何进行训练及其应用领域,读者需要熟悉基本的机器学习术语和神经网络架构,如 MLP 等。
Jul, 2022
本次研究对变压器模型在计算机视觉方面的应用进行了全面的回顾,包括自我关注、大规模预训练和双向编码等基础概念及其在图像分类、视频处理等多个领域的广泛应用。研究比较了不同技术在架构设计及实验价值方面的优缺点,并提出了未来的研究方向。
Jan, 2021
本质量分析了 Transformer 神经网络架构在医疗保健中的应用,以及在医学图像、电子健康记录和生理信号等多种形式的数据分析方面所发挥的积极作用,并概述了一些使用该架构的优点和局限性,包括计算成本、模型可解释性、公平性、与人类价值观的一致性、伦理和环境影响。
通过拓扑理论的视角对变压器神经网络的表达能力进行理论分析,发现许多常见的神经网络架构可以嵌入到分段线性函数的前拓扑中,而变压器必须位于其拓扑完成中,并且指出这两种网络家族实例化了不同的逻辑片段:前者是一阶的,而变压器是高阶推理器,并且将其分析与架构搜索和梯度下降相类比,将其整合到了对测控系统的框架中。
Mar, 2024
通过简洁明了的数学框架和清晰的图示,详细解释了神经语言模型的主要类型,包括 BERT 和 GPT2,同时讨论了在计算机视觉和时间序列应用中的转化及与自然语言处理的对比。
Jan, 2024