Transformer 修改能否在不同实现和应用间转移?
本文综述了各种 X-formers,包括 Transformer 的变体,提出了一个新的分类法并从结构修改、预训练和应用三个方面介绍了各种 X-formers,并提出了未来研究的一些潜在方向。
Jun, 2021
该论文通过对 NLP 的演变及其应用的准确性和效率的评论,以及提出和硬件考虑下对基于 transformer 模型的效率进行改进的研究贡献的调查,旨在确定当前 NLP 技术对可持续社会的贡献,并为未来研究奠定基础。
May, 2024
介绍了 Transformer 基本概念,描述了标准 Transformer 架构,包括一系列模型细化和常见应用,主要关注有助于理解 Transformer 及其变体的概念和对该领域产生影响的关键思想,从而揭示了这些模型的优势和局限性。
Nov, 2023
通过探索 Transformer 模型的设计空间,我们发现一些设计上的决策对该模型的归纳偏差有很大的影响。我们发现这些决策可以显著地提高 Transformer 模型的组合泛化能力,并在各种复合任务中实现了比文献报道的更好的泛化结果,并在语义分析组合泛化基准(COGS)和字符串编辑操作组合基准(PCFG)中实现了最先进的结果。
Aug, 2021
本文通过评估不同层(组件)中每个组件对训练后的 Transformer 模型的影响,构建了当前尚未被充分研究的各个组件如何促进模型性能的环节。实验结果表明:在各种语言对,训练策略和模型容量上,某些组件比其他组件更为重要;作者据此提出了区分不重要组件的新型训练策略,逐步改进了翻译性能。
Nov, 2020
我们全面理解和解释了 Transformer 结构,针对 multi-head self-attention 中的 Extractor 提出了改进方案,通过实验证明改进的 Extractor 表现更好,为改善 Transformer 结构指明了一条途径。
Nov, 2023
基于 Transformer 架构的大型语言模型(LLMs)的近期进展在自然语言处理(NLP)应用领域展示了显著的拓宽范围,超越了其在聊天机器人技术中的初始应用。本文探究了这些模型的多方面应用,重点关注 GPT 系列,对人工智能(AI)驱动工具在改变编码、问题解决等传统任务上起到的转变性影响进行了研究,同时开辟了在不同行业中进行研究和开发的新方向。从代码解释和图像描述到便于构建交互式系统和推动计算领域的发展,Transformer 模型展示了深度学习、数据分析和神经网络设计相结合的协同作用。本调查报告深入了解了 Transformer 模型的最新研究,突出了其多功能性和在实际应用领域中转型的潜力,从而为读者提供了对 Transformer-based LLMs 在当前和未来实际应用领域的全面理解。
Mar, 2024
本文综述了 transformers 在语音技术各领域中的应用,旨在为研究者提供宝贵的资源,提供解决 transformers 在语音处理中面临的挑战的可行方法。
Mar, 2023
本文通过详细调查从 2017 至 2022 年间提出的 Transformer 模型,分析了其在自然语言处理、计算机视觉、多模态、音频和语音处理以及信号处理等领域中的应用及其对应的任务,并提供了一种分类法,以期为进一步研究及其未来的应用提供参考。
Jun, 2023