重新思考Transformer组件的价值
本文介绍了使用Tensor2Tensor框架和Transformer序列到序列模型进行神经机器翻译的实验。研究比较了影响最终翻译质量、内存使用、训练稳定性和时间的一些关键参数,并给出了一些实用建议,包括扩展到多个GPU的方法、对批处理大小、学习率、预热步数、最大句子长度和检查点平均值的改进建议。希望本文的观察对其他研究人员有所帮助。
Apr, 2018
本研究旨在使用神经架构搜索技术应用于Transformer结构中,通过进化架构搜索技术,探索发现了性能更好的替代模型Evolved Transformer,该模型不仅在WMT 2014英德翻译任务上取得了新的性能最优结果,且在模型容量更小的情况下性能优于原始模型。
Jan, 2019
本研究对Transformer模型在低资源语言翻译中的应用进行了探究,发现过度追求模型大小存在负面影响,需要注意调整超参数以提高性能。同时,本研究旨在挖掘更佳的模型性能,以推动“Masakhane”项目的发展。
Apr, 2020
本研究通过开发一种通用的探测任务来分析Transformer-based解码器中的每个模块如何传递信息,并针对三个主要翻译数据集进行了广泛实验。通过分析发现,Transformer解码器中每个模块对应的不同的源信息和目标语前缀的使用方式。同时,通过实验得出,每层解码器中的残差前馈模块可以被取消,而不影响性能,从而极大地降低了计算量和参数数量,提高了培训和推理速度
Oct, 2020
本文研究了神经机器翻译中低资源语种的问题,通过在IWSLT14数据集上的实验发现,在优化超参数设置的情况下,Transformer模型在低资源情况下的翻译质量可以提高7.3个BLEU分数。
Nov, 2020
本文综合评估了Transformers架构的许多修改,并发现大多数修改并没有显著的改善性能。作者推测性能的提高可能严重依赖于实现细节,并相应地提出了一些改进实验结果通用性的建议。
Feb, 2021
本文提出了一种新型Transformer结构,其特点是全层归一化、加权残差连接、利用强化学习的位置编码和零屏蔽自注意力。通过使用Multi30k翻译数据集进行双语评估替代,验证了所提出的增强型Transformer模型。结果显示,增强型Transformer的BLEU分数比原始Transformer模型高出了202.96%。
Oct, 2023
通过超参数优化,选择适当的参数并进行子词模型的正确选择,能够在英语-爱尔兰语低资源语言对的翻译中实现显著的性能提升,并改善了Google翻译的基准性能。
Mar, 2024
这篇论文提供了对Transformer-based语言模型内部工作进行解释的当前技术的简明技术介绍,重点讨论生成式只解码器架构。我们最后总结了这些模型实现的已知内部机制的综合概述,揭示了该领域中流行方法和活跃研究方向之间的联系。
Apr, 2024
本研究旨在探索Quantization对Transformer模型进行高效的预训练的影响,重点关注线性层组件。通过系统地应用直接的线性量化方法于权重、激活值、梯度和优化器状态,我们评估其对模型的效率、稳定性和训练性能的影响。通过提供一套有效的Quantization策略,用于Transformer的预训练,我们旨在在保留语言模型能力的同时促进高效的从头开始的训练。
Jul, 2024