机器翻译领域自适应的有效性
提出了一种基于自动编码器的 $k$NN-MT 方法,可以利用目标语言的单语句子构建有效的数据库来达到无监督的领域自适应翻译,从而提高翻译的准确性和可靠性。
Sep, 2021
本文提出了一种基于句子级检索的最近邻机器翻译框架,用于快速领域自适应,该框架旨在大大提高 kNN-MT 模型的解码和存储效率,并且不会影响翻译性能。实验证明,该框架不仅能够达到与 NMT 模型相同的速度,且能够显著减少存储要求。
Feb, 2023
本文介绍了一种适应新领域的神经机器翻译(NMT)系统,并展示了在两种语言对上,适应方法相比于常用方法在自动和人工评估测量标准下的显著性提升,而一般领域性能仅略有下降,适应过程快速且不需要重新训练 NMT 模型。
Dec, 2016
本研究探讨了针对预训练第三方 NMT 模型的单语和平行数据方法在领域适应中的效果,在低资源条件下提出了集成方法来缓解翻译质量的降低,并给出了在三个领域和四个语言对中的建议。
Jun, 2022
本文提出了一种新颖的方法使用基于 5-gram KenLM 语言模型的缩放相似性分数,尤其是对于相关语言,该方法使用 Kneser-ney 平滑技术从域内数据中过滤出域外数据,以提高机器翻译的翻译质量。 此外,我们采用了其他域自适应技术,如多域、微调和迭代回译方法,以比较我们在 Hindi-Nepali 语言对上的新方法在 NMT 和 SMT 上的效果,我们的方法在多域方法上增加了约 2 个 BLEU 点,在微调 NMT 方面提高了约 3 个 BLEU 点,在迭代回译上提高了约 2 个 BLEU 点。
Mar, 2023
提出了一种利用众包工作者从网络中有效地收集一个目标领域平行句子的框架,从而快速地将机器翻译模型适应于目标领域,实验证明这种方法可以在几天内以合理的成本收集到目标领域平行数据,并且与通用翻译模型相比,域适应模型的 BLEU 评分平均提高了 7.8 分、最高提高了 19.7 分。
Oct, 2022
本研究提出了一种利用预训练语言模型进行领域特定数据增强的领域自适应新方法,通过该方法,配合回译技术,可生成大量合成双语的领域内数据,从而显著改进了机器翻译的领域内文本的翻译效果。人工评估结果进一步证实了自动评估结果的准确性。
Aug, 2022
本文分析了 $k$NN-MT 的理论和实证研究,以及针对多域实验和单词级别的分析,发现在特定情况下,结合 $k$NN-MT 和适配器的方法能够实现与在域测试集上微调相当的翻译性能,并在域外测试集上取得更好的性能,同时,优化上下文表示可以弥补低频特定领域词汇召回方面 $k$NN-MT 与微调的差距。
May, 2023