重新思考Transformer组件的价值

Nov, 2020

Rethinking the Value of Transformer Components

Wenxuan Wang, Zhaopeng Tu

TL;DR本文通过评估不同层（组件）中每个组件对训练后的Transformer模型的影响，构建了当前尚未被充分研究的各个组件如何促进模型性能的环节。实验结果表明：在各种语言对，训练策略和模型容量上，某些组件比其他组件更为重要；作者据此提出了区分不重要组件的新型训练策略，逐步改进了翻译性能。

Abstract

transformer becomes the state-of-the-art translation model, while it is not well studied how each intermediate component contributes to the model

发现论文，激发创造

Transformer模型的训练技巧

本文介绍了使用Tensor2Tensor框架和Transformer序列到序列模型进行神经机器翻译的实验。研究比较了影响最终翻译质量、内存使用、训练稳定性和时间的一些关键参数，并给出了一些实用建议，包括扩展到多个GPU的方法、对批处理大小、学习率、预热步数、最大句子长度和检查点平均值的改进建议。希望本文的观察对其他研究人员有所帮助。

Apr, 2018

进化Transformer

本研究旨在使用神经架构搜索技术应用于Transformer结构中，通过进化架构搜索技术，探索发现了性能更好的替代模型Evolved Transformer，该模型不仅在WMT 2014英德翻译任务上取得了新的性能最优结果，且在模型容量更小的情况下性能优于原始模型。

Jan, 2019

关于低资源语言翻译的最优Transformer深度

本研究对Transformer模型在低资源语言翻译中的应用进行了探究，发现过度追求模型大小存在负面影响，需要注意调整超参数以提高性能。同时，本研究旨在挖掘更佳的模型性能，以推动“Masakhane”项目的发展。

Apr, 2020

Transformer 解码器的子层功能

本研究通过开发一种通用的探测任务来分析Transformer-based解码器中的每个模块如何传递信息，并针对三个主要翻译数据集进行了广泛实验。通过分析发现，Transformer解码器中每个模块对应的不同的源信息和目标语前缀的使用方式。同时，通过实验得出，每层解码器中的残差前馈模块可以被取消，而不影响性能，从而极大地降低了计算量和参数数量，提高了培训和推理速度

Oct, 2020

为低资源神经机器翻译优化Transformer

本文研究了神经机器翻译中低资源语种的问题，通过在IWSLT14数据集上的实验发现，在优化超参数设置的情况下，Transformer模型在低资源情况下的翻译质量可以提高7.3个BLEU分数。

Nov, 2020

Transformer 修改能否在不同实现和应用间转移？

本文综合评估了Transformers架构的许多修改，并发现大多数修改并没有显著的改善性能。作者推测性能的提高可能严重依赖于实现细节，并相应地提出了一些改进实验结果通用性的建议。

Feb, 2021

自然语言处理的增强Transformer架构

本文提出了一种新型Transformer结构，其特点是全层归一化、加权残差连接、利用强化学习的位置编码和零屏蔽自注意力。通过使用Multi30k翻译数据集进行双语评估替代，验证了所提出的增强型Transformer模型。结果显示，增强型Transformer的BLEU分数比原始Transformer模型高出了202.96%。

Oct, 2023

低资源语言的变压器：Is Féidir Linn!

通过超参数优化，选择适当的参数并进行子词模型的正确选择，能够在英语-爱尔兰语低资源语言对的翻译中实现显著的性能提升，并改善了Google翻译的基准性能。

Mar, 2024

基于Transformer的语言模型内部工作原理初探

这篇论文提供了对Transformer-based语言模型内部工作进行解释的当前技术的简明技术介绍，重点讨论生成式只解码器架构。我们最后总结了这些模型实现的已知内部机制的综合概述，揭示了该领域中流行方法和活跃研究方向之间的联系。

Apr, 2024

探索量化技术以提高Transformer语言模型的高效预训练

本研究旨在探索Quantization对Transformer模型进行高效的预训练的影响，重点关注线性层组件。通过系统地应用直接的线性量化方法于权重、激活值、梯度和优化器状态，我们评估其对模型的效率、稳定性和训练性能的影响。通过提供一套有效的Quantization策略，用于Transformer的预训练，我们旨在在保留语言模型能力的同时促进高效的从头开始的训练。

Jul, 2024