使用原始 Transformer 对机器翻译任务进行有效的通用领域数据收录
本研究提出了一种利用预训练语言模型进行领域特定数据增强的领域自适应新方法,通过该方法,配合回译技术,可生成大量合成双语的领域内数据,从而显著改进了机器翻译的领域内文本的翻译效果。人工评估结果进一步证实了自动评估结果的准确性。
Aug, 2022
通过引入归纳偏置(locality assumption)作为一种假设,从目标到源的注意力的假设空间减小,来解决翻译单元扩展至整个文档时出现的训练失败问题,我们提出了 G-Transformer。实验表明,G-Transformer 比 Transformer 更快、更稳定地收敛,在三个基准数据集上实现了新的最优 BLEU 分数。
May, 2021
利用不同基于 Transformer 的模型探索分析德语顾客反馈数据集的效率,进一步分析预训练模型是否使用无标签数据适应特定领域会比现成模型获得更好的结果,实验结果表明,这些预训练模型取得了显著改进,超过了已发表的成绩和以前的模型。
Dec, 2022
本文介绍了微软译者参加 WMT19 新闻翻译的论文,重点关注基于深度转换模型的文档级神经机器翻译。研究团队通过数据过滤和噪声反向转换等方式构建大规模数据集,并探索了微调技术,更深层次的模型以及不同的集成策略,最终实现了对最大长度为 1000 个子词节选的文档级机器翻译。在人工评估中,研究人员发现文档级翻译系统的性能优于基于句子的翻译系统和人类参考翻译。
Jul, 2019
介绍了我们在 WMT'22 翻译建议共享任务中提交的系统,该系统基于多种翻译架构的集合,并使用三种策略构建合成数据以补偿监督数据的缺乏,并引入多阶段预训练策略,并在英德和英汉双向任务中排名第二和第三。
Oct, 2022
本研究提出了一种利用神经模型、机器翻译、自然语言生成和元数据的迁移学习方法,用于生成长描述性摘要,旨在解决机器翻译、自然语言生成和元数据机器翻译等方面的挑战。实验结果表明,该方法可以优于现有技术,并在 WNGT 2019 中的 “文档生成和翻译” 任务中荣获全场第一。
Oct, 2019
通过使用不同领域的语料库和不同质量的数据,我们训练了一系列的大语言模型,在多个下游任务中,跨领域数据集训练的模型表现优于仅使用高质量数据训练的模型,前者的性能提升高达 4.45%。
Oct, 2023
本文介绍了我们在德英(DE-EN)、英捷(EN-CS)和中英(ZH-EN)语言对上提交给 WMT 2023 术语共享任务的方法,通过使用大型语言模型(LLMs)生成二语合成数据并将预批准术语整合入机器翻译(MT)中,成功地提高了术语的使用率。
Oct, 2023
本篇研究论文提出了一种通过适当使用层归一化技术以及一种新的传递先前层组合方法,在机器翻译任务中,构建比 Transformer-Big 模型更深层的 Transformer 模型,并在 WMT'16 英德、NIST OpenMT'12 中英和更大的 WMT'18 中英任务中将深层系统(30/25 层编码器)与浅层 Transformer-Big / 基线(6 层编码器)相比,BLEU 分数提高了 0.4-2.4 点,而且深度模型的大小更小 1.6 倍并且训练速度更快 3 倍。
Jun, 2019
提出了一种利用众包工作者从网络中有效地收集一个目标领域平行句子的框架,从而快速地将机器翻译模型适应于目标领域,实验证明这种方法可以在几天内以合理的成本收集到目标领域平行数据,并且与通用翻译模型相比,域适应模型的 BLEU 评分平均提高了 7.8 分、最高提高了 19.7 分。
Oct, 2022