机器翻译领域自适应的有效性

Apr, 2022

Efficient Machine Translation Domain Adaptation

Pedro Henrique Martins, Zita Marinho, André F. T. Martins

TL;DR该论文探讨了加速最近邻机器翻译的几种方法，其中介绍了一种简单但有效的缓存策略，避免了之前出现过的类似上下文的再次检索。翻译质量和运行时间表明了这些解决方案的有效性。

Abstract

machine translation models struggle when translating out-of-domain text, which makes domain adaptation a topic of critical importance. However, most →

machine translation domain adaptation semi-parametric models nearest neighbor caching strategy

发现论文，激发创造

神经机器翻译的非参数无监督域自适应

提出了一种基于自动编码器的 $k$NN-MT 方法，可以利用目标语言的单语句子构建有效的数据库来达到无监督的领域自适应翻译，从而提高翻译的准确性和可靠性。

Sep, 2021

简单且可扩展的最邻近机器翻译

本文提出了一种基于句子级检索的最近邻机器翻译框架，用于快速领域自适应，该框架旨在大大提高 kNN-MT 模型的解码和存储效率，并且不会影响翻译性能。实验证明，该框架不仅能够达到与 NMT 模型相同的速度，且能够显著减少存储要求。

Feb, 2023

神经机器翻译的快速领域适应

本文介绍了一种适应新领域的神经机器翻译（NMT）系统，并展示了在两种语言对上，适应方法相比于常用方法在自动和人工评估测量标准下的显著性提升，而一般领域性能仅略有下降，适应过程快速且不需要重新训练 NMT 模型。

Dec, 2016

面向神经机器翻译的无监督领域自适应与领域感知特征嵌入

提出一种通过使用语言建模来学习领域感知特征嵌入，在多个实验中提高神经机器翻译性能的方法，该方法允许使用者指定特定领域的文本表示。

Aug, 2019

神经机器翻译中低资源域适应的正确配方寻找

本研究探讨了针对预训练第三方 NMT 模型的单语和平行数据方法在领域适应中的效果，在低资源条件下提出了集成方法来缓解翻译质量的降低，并给出了在三个领域和四个语言对中的建议。

Jun, 2022

通过领域自适应技术利用语言相关性进行机器翻译

本文提出了一种新颖的方法使用基于 5-gram KenLM 语言模型的缩放相似性分数，尤其是对于相关语言，该方法使用 Kneser-ney 平滑技术从域内数据中过滤出域外数据，以提高机器翻译的翻译质量。此外，我们采用了其他域自适应技术，如多域、微调和迭代回译方法，以比较我们在 Hindi-Nepali 语言对上的新方法在 NMT 和 SMT 上的效果，我们的方法在多域方法上增加了约 2 个 BLEU 点，在微调 NMT 方面提高了约 3 个 BLEU 点，在迭代回译上提高了约 2 个 BLEU 点。

Mar, 2023

利用众包工作者进行机器翻译的域适应

提出了一种利用众包工作者从网络中有效地收集一个目标领域平行句子的框架，从而快速地将机器翻译模型适应于目标领域，实验证明这种方法可以在几天内以合理的成本收集到目标领域平行数据，并且与通用翻译模型相比，域适应模型的 BLEU 评分平均提高了 7.8 分、最高提高了 19.7 分。

Oct, 2022

针对机器翻译的领域特定文本生成

本研究提出了一种利用预训练语言模型进行领域特定数据增强的领域自适应新方法，通过该方法，配合回译技术，可生成大量合成双语的领域内数据，从而显著改进了机器翻译的领域内文本的翻译效果。人工评估结果进一步证实了自动评估结果的准确性。

Aug, 2022

神经机器翻译的领域自适应调查

本文全面调查总结了当前最先进的神经机器翻译领域适应技术，旨在解决场景中特定领域缺乏相应语料库而导致自然语言翻译效果下降的问题。

Jun, 2018

最近邻机器翻译是输出投影层上的元优化器

本文分析了 $k$NN-MT 的理论和实证研究，以及针对多域实验和单词级别的分析，发现在特定情况下，结合 $k$NN-MT 和适配器的方法能够实现与在域测试集上微调相当的翻译性能，并在域外测试集上取得更好的性能，同时，优化上下文表示可以弥补低频特定领域词汇召回方面 $k$NN-MT 与微调的差距。

May, 2023