从预训练模型获取知识到神经机器翻译

Dec, 2019

从预训练模型获取知识到神经机器翻译

Acquiring Knowledge from Pre-trained Model to Neural Machine Translation

Rongxiang Weng, Heng Yu, Shujian Huang, Shanbo Cheng, Weihua Luo

TL;DR本文提出了一种 APT 框架，在神经机器翻译中利用预训练模型的语言知识，该框架包括两个模块：1）动态融合机制，将从通用知识中适应的任务特定特征融合到 NMT 网络中；2）知识蒸馏范式，在 NMT 训练过程中连续学习语言知识。实验结果表明，我们的模型优于强基线和微调对应模型。

Abstract

pre-training and fine-tuning have achieved great success in the natural language process field. The standard paradigm of exploiting them includes two steps: first, →

pre-training fine-tuning neural machine translation apt framework knowledge distillation

发现论文，激发创造

利用 BERT 优化神经机器翻译

本文介绍了一种有力的方法，将事先训练好的语言模型（LMs）与神经机器翻译（NMT）相结合，以解决当前 LM 微调应用于资源丰富任务时巨大遗忘的难题，并在机器翻译任务中取得了优越的成果。

Aug, 2019

神经机器翻译的简单可扩展自适应性

本研究提出了一种简单而有效的适应 NMT 模型的方法，该方法是将微小的任务特定适配层注入预训练模型，能够同时适应多个不同的任务，并在两项任务中得到了验证，理论与全面的微调相当。

Sep, 2019

适应预训练的单语和多语模型的机器翻译配方

本文旨在研究利用预训练模型进行机器翻译时，冻结参数与添加新参数来微调预训练模型的优点和缺点，通过试验方式得出最优结果。结果表明，当微调 monolingual 预训练模型时，通过冻结大部分模型参数并添加更多的位置嵌入可以在机器翻译任务中获得最佳性能表现，最重要的微调参数是编码器 - 解码器的关注力参数。

Apr, 2020

使用 BERT 进行神经机器翻译

该论文研究了利用 BERT 预训练模型对神经机器翻译任务进行有监督学习，探究整合预训练模型和神经机器翻译模型的方法，以及 BERT 训练中单语数据对最终翻译质量的影响。作者使用了英德和英俄数据集进行评估，并通过在领域外测试集和注入噪声测试集上进行评估以评估 BERT 预训练表示对模型鲁棒性的影响。

Sep, 2019

神经机器翻译的预翻译

使用词汇短语转换（phrase-based machine translation）方法预处理输入，进而提升神经机器翻译（NMT）的翻译质量，在英德翻译任务中，使用该方法的性能跃升 2 个 BLEU 分数，同时分析了初始系统质量对最终结果的影响。

Oct, 2016

将预训练语言模型整合到神经机器翻译中

本研究提出了一种整合预训练语言模型和神经机器翻译的方法（PiNMT），通过引入 PLM 多层转换器、嵌入融合和余弦对齐等关键组件以及分离学习率和双步训练等训练策略，实现了 PLM 与 NMT 的有效整合，提升了性能，并在 IWSLT'14 数据集上取得了最新的研究成果。

Oct, 2023

将 BERT 引入神经机器翻译

本文提出了一个名为 BERT-fused 的算法，通过在 NMT 模型的编码器和解码器的每个层中使用 BERT 提取表示并通过注意机制融合，实现了在监督、半监督和无监督机器翻译上取得了最先进的结果。

Feb, 2020

预训练多语言神经机器翻译模型的鲁棒领域自适应

本文提出一种将多语言神经机器翻译模型域自适应的 Fine-tuning 方法，结合 Embeddings 冻结与对抗性损失，能在保持所有语言对的通用领域性能的同时，显著提高处理特定数据领域的性能。

Oct, 2022

简单融合：语言模型的回归

本研究比较了将语言模型融合进神经机器翻译的几种方法，并提出了一种新的利用预训练语言模型得分的简单方法，使得翻译模型能够专注于源语言建模，从而在四个测试数据集上取得了 BLEU 值 0.24 至 2.36 的提升。

Sep, 2018

增强大型语言模型的翻译能力的新范式

本文介绍了一项关于增强大型语言模型（LLMs）在机器翻译（MT）任务中翻译能力的研究，提出了一个包括三个阶段的新范 Paradigm，通过使用大量的单语数据进行二次预训练、使用互译文本格式文档进行连续预训练，以及利用和源语言一致的指导来进行监督微调。实验结果表明，我们的方法在翻译能力方面取得了显著的改进，超过了以前的工作，并在参数数量较小的情况下实现了优越的性能。

Mar, 2024