针对机器翻译的领域特定文本生成

Aug, 2022

针对机器翻译的领域特定文本生成

Domain-Specific Text Generation for Machine Translation

Yasmin Moslem, Rejwanul Haque, John D. Kelleher, Andy Way

TL;DR本研究提出了一种利用预训练语言模型进行领域特定数据增强的领域自适应新方法，通过该方法，配合回译技术，可生成大量合成双语的领域内数据，从而显著改进了机器翻译的领域内文本的翻译效果。人工评估结果进一步证实了自动评估结果的准确性。

Abstract

Preservation of domain knowledge from the source to target is crucial in any translation workflow. It is common in the translation industry to receive highly specialized projects, where there is hardly any parallel in-domain data. In such scenarios where there is insufficient in-domain data to fine-tune →

domain adaptation pretrained language models machine translation bilingual data fine-tuning

发现论文，激发创造

通过词表归纳进行神经机器翻译的领域适应

本文提出了一种无监督的自适应方法，使用伪域内语料库通过微调预先训练的域外 NMT 模型，借助词典诱导提取域内词汇，并通过针对性的单语域内目标句子进行逐词反向翻译构建伪平行域内语料库，在 20 对自适应设置和两种模型架构的五个领域中，我们的方法始终显示出提高，而不需要使用任何域内平行句子，改进了未经过调整的模型高达 14 BLEU 和强反向翻译基线的最高 2 BLEU。

Jun, 2019

基于多语数据选择的神经机器翻译领域通用无监督适应

本文针对神经机器翻译中的无监督领域自适应问题，提出一种跨语料库数据选择方法，通过对多语言 BERT 进行对比学习，实现源语言和目标语言之间的表示对齐，从而实现零样本领域分类器的可转移性，并且通过联合学习翻译任务和领域区分任务来适应新领域。我们在五个不同的领域和三种语言对的神经机器翻译上进行了跨语料库数据选择方法的评估，并在 COVID-19 疫情实时翻译中进行了应用验证，实验结果表明，我们提出的方法相对于基线方法的 BLEU 指标得分提高了 1.5 个百分点。

Sep, 2021

使用大型语言模型的自适应机器翻译

本文旨在探究如何利用上下文学习的方法来提高实时自适应机器翻译的质量，并研究将强编码器 - 解码器模型和模糊匹配相结合以进一步提高翻译质量的方法。已在五个大不同的语言对上展开了实验。

Jan, 2023

通过领域自适应技术利用语言相关性进行机器翻译

本文提出了一种新颖的方法使用基于 5-gram KenLM 语言模型的缩放相似性分数，尤其是对于相关语言，该方法使用 Kneser-ney 平滑技术从域内数据中过滤出域外数据，以提高机器翻译的翻译质量。此外，我们采用了其他域自适应技术，如多域、微调和迭代回译方法，以比较我们在 Hindi-Nepali 语言对上的新方法在 NMT 和 SMT 上的效果，我们的方法在多域方法上增加了约 2 个 BLEU 点，在微调 NMT 方面提高了约 3 个 BLEU 点，在迭代回译上提高了约 2 个 BLEU 点。

Mar, 2023

自适应机器翻译的语言模型方法

机器翻译与语言模型在领域适应中的应用

Jan, 2024

预训练多语言神经机器翻译模型的鲁棒领域自适应

本文提出一种将多语言神经机器翻译模型域自适应的 Fine-tuning 方法，结合 Embeddings 冻结与对抗性损失，能在保持所有语言对的通用领域性能的同时，显著提高处理特定数据领域的性能。

Oct, 2022

利用众包工作者进行机器翻译的域适应

提出了一种利用众包工作者从网络中有效地收集一个目标领域平行句子的框架，从而快速地将机器翻译模型适应于目标领域，实验证明这种方法可以在几天内以合理的成本收集到目标领域平行数据，并且与通用翻译模型相比，域适应模型的 BLEU 评分平均提高了 7.8 分、最高提高了 19.7 分。

Oct, 2022

阿拉伯语机器翻译的领域适应：金融文本的案例

本研究探索了在尚未开发的金融领域中，为阿拉伯机器翻译（AMT）应用特定领域的适应性方法，结果表明只需少量与领域对齐的阿拉伯 - 英语片段，使用预训练的 NMT 和大型语言模型 (包括 ChatGPT-3.5 Turbo) 进行微调能够取得成功，ChatGPT 的翻译质量在自动和人工评估中均优于其他模型。

Sep, 2023

面向神经机器翻译的无监督领域自适应与领域感知特征嵌入

提出一种通过使用语言建模来学习领域感知特征嵌入，在多个实验中提高神经机器翻译性能的方法，该方法允许使用者指定特定领域的文本表示。

Aug, 2019

神经机器翻译的迭代双域自适应

本文提出一种双重迭代领域自适应框架，通过多层反向翻译知识传输来提高公共领域的翻译知识的提取效果，并通过将这种转移策略应用于多个不同相似度的领域进行了验证。该框架在中英文和英德文翻译任务中取得了令人满意的实验结果。

Dec, 2019