针对机器翻译的领域特定文本生成
本文提出了一种无监督的自适应方法,使用伪域内语料库通过微调预先训练的域外 NMT 模型,借助词典诱导提取域内词汇,并通过针对性的单语域内目标句子进行逐词反向翻译构建伪平行域内语料库,在 20 对自适应设置和两种模型架构的五个领域中,我们的方法始终显示出提高,而不需要使用任何域内平行句子,改进了未经过调整的模型高达 14 BLEU 和强反向翻译基线的最高 2 BLEU。
Jun, 2019
本文针对神经机器翻译中的无监督领域自适应问题,提出一种跨语料库数据选择方法,通过对多语言 BERT 进行对比学习,实现源语言和目标语言之间的表示对齐,从而实现零样本领域分类器的可转移性,并且通过联合学习翻译任务和领域区分任务来适应新领域。我们在五个不同的领域和三种语言对的神经机器翻译上进行了跨语料库数据选择方法的评估,并在 COVID-19 疫情实时翻译中进行了应用验证, 实验结果表明,我们提出的方法相对于基线方法的 BLEU 指标得分提高了 1.5 个百分点。
Sep, 2021
本文旨在探究如何利用上下文学习的方法来提高实时自适应机器翻译的质量,并研究将强编码器 - 解码器模型和模糊匹配相结合以进一步提高翻译质量的方法。已在五个大不同的语言对上展开了实验。
Jan, 2023
本文提出了一种新颖的方法使用基于 5-gram KenLM 语言模型的缩放相似性分数,尤其是对于相关语言,该方法使用 Kneser-ney 平滑技术从域内数据中过滤出域外数据,以提高机器翻译的翻译质量。 此外,我们采用了其他域自适应技术,如多域、微调和迭代回译方法,以比较我们在 Hindi-Nepali 语言对上的新方法在 NMT 和 SMT 上的效果,我们的方法在多域方法上增加了约 2 个 BLEU 点,在微调 NMT 方面提高了约 3 个 BLEU 点,在迭代回译上提高了约 2 个 BLEU 点。
Mar, 2023
本文提出一种将多语言神经机器翻译模型域自适应的 Fine-tuning 方法,结合 Embeddings 冻结与对抗性损失,能在保持所有语言对的通用领域性能的同时,显著提高处理特定数据领域的性能。
Oct, 2022
提出了一种利用众包工作者从网络中有效地收集一个目标领域平行句子的框架,从而快速地将机器翻译模型适应于目标领域,实验证明这种方法可以在几天内以合理的成本收集到目标领域平行数据,并且与通用翻译模型相比,域适应模型的 BLEU 评分平均提高了 7.8 分、最高提高了 19.7 分。
Oct, 2022
本研究探索了在尚未开发的金融领域中,为阿拉伯机器翻译(AMT)应用特定领域的适应性方法,结果表明只需少量与领域对齐的阿拉伯 - 英语片段,使用预训练的 NMT 和大型语言模型 (包括 ChatGPT-3.5 Turbo) 进行微调能够取得成功,ChatGPT 的翻译质量在自动和人工评估中均优于其他模型。
Sep, 2023
本文提出一种双重迭代领域自适应框架,通过多层反向翻译知识传输来提高公共领域的翻译知识的提取效果,并通过将这种转移策略应用于多个不同相似度的领域进行了验证。该框架在中英文和英德文翻译任务中取得了令人满意的实验结果。
Dec, 2019