本文提出了一种混合数据模型并行方法用于 Seq2Seq 循环神经网络机器翻译,将模型并行方法应用于 Seq2Seq 模型的 RNN 编码器 - 解码器部分和数据并行方法应用于模型的注意力 - softmax 部分,使用 4 个 GPU 训练和使用 1 个 GPU 训练相比,在不影响 BLEU 分数的情况下获得了 4.13 到 4.20 倍的加速。
Sep, 2019
该研究研究了如何在只有大型单语语料库的情况下学习翻译。提出了两种模型,一种是神经模型,一种是基于短语的模型。这些模型通过参数的精心初始化、语言模型的去噪效应和反向迭代自动生成的并行数据来提高翻译性能。在 WMT'14 英语 - 法语和 WMT'16 德语 - 英语 基准测试上,这些模型分别获得 28.1 和 25.2 BLEU 分数,比现有方法的 BLEU 分数高出 11 个分数。方法在英语 - 乌尔都语和英语 - 罗马尼亚语等低资源语言中也取得了良好的结果。
Apr, 2018
本文提出了一种基于数据增强和引导的训练方法来缓解神经机器翻译 (NMT) 训练效率方面的问题,它模拟人类学习过程,能够提高准确性并节省 20% 的训练时间。
Dec, 2016
本篇研究旨在通过对注意机制做出简单修改以训练深度 NMT 模型,我们尝试通过训练深度 Transformer 和 Bi-RNN 编码器来提高机器翻译的质量,结果在 WMT'14 英德和 WMT'15 捷英任务上均取得了 0.7-1.1 的 BLEU 提升。
Aug, 2018
通过提出一种新的微调方法,我们设计了一种面向翻译任务的先进语言模型的翻译器 ALMA,该模型在 WMT'21 和 WMT'22 的测试数据集上相比于之前的工作和具有 7B 或 13B 参数的模型有着显著性能提升,并为机器翻译领域的新的训练范式奠定了基础。
Sep, 2023
本论文研究了如何通过采用轻量级解码器和词汇筛选来加速多语言神经机器翻译的推理速度,而不影响翻译质量,使用 BLEU 和 chrF 进行实验验证,并进行了健壮性评估和人类评估。
Sep, 2021
该论文通过深度编码器和浅层解码器结构、多头注意力修剪以及将解码器自注意力替换为简化的循环单元等方法,可以在不降低翻译质量的情况下,在 CPU 和 GPU 上分别获得高达 109% 和 84% 的加速,并将参数数量减少 25%。
Oct, 2020
本研究提出了一种全新的方法,在没有平行数据的情况下,只利用单语数据即可训练 NMT 系统。这种基于注意力机制的编码器解码器模型结合去噪和回译技术, 在 WMT 2014 的法英和德英翻译中获得了 15.56 和 10.21 BLEU 分数,且能够利用少量的平行数据来提高翻译质量。
Oct, 2017
本文提出了一种用于训练亿级参数的 transformer 模型的简便、高效的内部层模型并行方法,并且通过在 WikiText103,LAMBADA 和 RACE 数据集中取得了最先进的结果,证明了大型语言模型可以进一步推进最先进的技术。
通过优化 IO、CPU 和 GPU 计算,本文展示了在一天内使用八个消费级 GPU 在一台电脑上进行最先进的视频模型训练的高效管道,与之前的工作相比,我们的管道在相同的架构下仅需 $rac {1}{8}$ 的计算量即可达到更高的准确性。