自然语言处理的增强 Transformer 架构
本论文研究了通过将句法信息与深度学习模型相结合,提高自然语言处理任务的性能表现,对多特征的语法 - Transformer 进行了测试,发现在完整数据集和部分数据集中,BLEU 得分都有明显提升,同时,在 GLUE 基准测试中,语法嵌入的 BERT 微调在几个下游任务中表现优于基线。
Nov, 2019
该论文通过对 NLP 的演变及其应用的准确性和效率的评论,以及提出和硬件考虑下对基于 transformer 模型的效率进行改进的研究贡献的调查,旨在确定当前 NLP 技术对可持续社会的贡献,并为未来研究奠定基础。
May, 2024
通过多种异构方法的整合,设计了多编码器 Transformer,以提高翻译质量,特别对于低资源语言表现出最大 7.16 BLEU 的提升。
Dec, 2023
自然语言处理的进展主要归功于模型架构和预训练的进步,Transformer 架构为构建更高性能的模型提供了便利,预训练使得这些模型能够在各种任务中被有效利用。Transformers 是一个旨在向更广泛的机器学习社区推广这些进展的开源库,库中包含一系列经过精心设计的 Transformer 架构和社区制作和提供的预训练模型,并且旨在为研究人员提供可扩展性、为从业者提供简便性、为产业部署提供快速和稳健性。
Oct, 2019
本篇论文提出基于注意力机制的神经机器翻译新架构,采用自注意力和前馈神经网络层来避免递归和卷积,但是需要大量的参数和训练才能收敛。同时又提出了加权 Transformer 模型,通过修改注意力层架构,更快地提高 BLEU 得分表现,同时在英译德和英译法机器翻译任务中表现最优。
Nov, 2017
本篇研究论文提出了一种通过适当使用层归一化技术以及一种新的传递先前层组合方法,在机器翻译任务中,构建比 Transformer-Big 模型更深层的 Transformer 模型,并在 WMT'16 英德、NIST OpenMT'12 中英和更大的 WMT'18 中英任务中将深层系统(30/25 层编码器)与浅层 Transformer-Big / 基线(6 层编码器)相比,BLEU 分数提高了 0.4-2.4 点,而且深度模型的大小更小 1.6 倍并且训练速度更快 3 倍。
Jun, 2019
本篇论文针对 Transformer 架构不足以高效融合语言建模所需的单词级序列上下文,提出了在保持计算效率的同时通过添加额外的 LSTM 层能够更好地捕捉顺序上下文的有效 Transformer 架构,其中 Coordinate Architecture Search(CAS)通过迭代模型的精炼来找到一个有效的架构,实验结果表明 CAS 在所有问题上的 perplexities 达到了 20.42 ~ 34.11,即比最先进的 LSTM 提高了 12.0 perplexity 单位。
Apr, 2019
本研究旨在使用神经架构搜索技术应用于 Transformer 结构中,通过进化架构搜索技术,探索发现了性能更好的替代模型 Evolved Transformer,该模型不仅在 WMT 2014 英德翻译任务上取得了新的性能最优结果,且在模型容量更小的情况下性能优于原始模型。
Jan, 2019
本文探讨了非常深的 Transformer 模型在神经机器翻译中的应用,使用一种简单但有效的初始化技术来稳定训练,我们证明了可行性,并且通过使用 60 个编码器层和 12 个解码器层,此类深度模型在 WMT14 英法和英德翻译基准上录得了比基准浅层模型高达 2.5 BLEU 的结果(其中包括通过回译得到的 46.4 BLEU 以及 30.1 BLEU),代码和训练模型将在公开网站上开放。
Aug, 2020
本文提出一种基于注意力机制的 Transformer 模型,优于使用循环或卷积神经网络的现有机器翻译模型,且可并行训练、训练时间更短,使得 BLEU 评分得以显著提高,并成功将该模型应用于英语句法分析等任务。
Jun, 2017