研究粤语 - 英语神经机器翻译中的逆向翻译和模型切换机制

May, 2024

研究粤语 - 英语神经机器翻译中的逆向翻译和模型切换机制

CANTONMT: Investigating Back-Translation and Model-Switch Mechanisms for Cantonese-English Neural Machine Translation

PDF

Kung Yin Hong, Lifeng Han, Riza Batista-Navarro, Goran Nenadic

TL;DR本研究探讨了从粤语到英语的机器翻译模型的开发和评估，并提出了一种应对低资源语言翻译的新方法。

Abstract

This paper investigates the development and evaluation of machine translation models from cantonese to →

machine translation cantonese english low-resource language translations evaluation

发现论文，激发创造

CantonMT: 使用合成逆向翻译数据对精细调优模型的粤英机器翻译平台

这项研究通过数据增强方法和用于低资源语言的神经机器翻译模型，针对粤语 - 英语的翻译方向进行了 Fine-tune，评估了多个不同指标对翻译效果的自动评价，并开发了一个用户友好的界面，以促进粤语 - 英语机器翻译研究。

Mar, 2024

无监督的普通话 - 粤语机器翻译

本研究探讨了基于无监督机器翻译的普通话和粤语之间的翻译，通过构建包含约 100 万个粤语句子的语料库，以及采用基于字符的分词和 Transformer 架构的模型，实现了最佳的翻译效果。

Jan, 2023

神经机器翻译中的回译研究

本研究探讨了使用回译数据对 NMT 模型性能的影响，通过逐步增加回译数据来训练一系列以德语为源语言，以英语为目标语言的 NMT 系统，并分析了相应的翻译绩效。

Apr, 2018

低资源语言的神经机器翻译

该研究探索了低资源语言领域的神经机器翻译以及如何通过 NLP 和深度学习技术对语言模型进行改进

Apr, 2023

基于短语和神经网络的无监督机器翻译

该研究研究了如何在只有大型单语语料库的情况下学习翻译。提出了两种模型，一种是神经模型，一种是基于短语的模型。这些模型通过参数的精心初始化、语言模型的去噪效应和反向迭代自动生成的并行数据来提高翻译性能。在 WMT'14 英语 - 法语和 WMT'16 德语 - 英语基准测试上，这些模型分别获得 28.1 和 25.2 BLEU 分数，比现有方法的 BLEU 分数高出 11 个分数。方法在英语 - 乌尔都语和英语 - 罗马尼亚语等低资源语言中也取得了良好的结果。

Apr, 2018

规模理解后向翻译

使用单语数据生成目标语反向翻译的有效方法能够提高神经机器翻译质量。本研究比较了几种方法生成合成源句子的效果，发现使用采样或噪声束搜索的反向翻译方法效果最好，并证实这种合成数据的训练信号强于束搜索或贪婪搜索的数据，同时也比较了它们与真实的平行语料库的效果，并研究了不同领域对它们的影响。最终，将这种方法扩展到数亿条单语数据，获得了 35 BLEU 的 WMT'14 英德测试集上的最新记录。

Aug, 2018

面向低资源语言的更优中心化神经机器翻译

本文介绍了一种在低资源语言环境下基于汉语的多语言机器翻译方法，并采用了单语词嵌入数据增强、双语课程学习、对比重排和一种新型的 Incomplete-Trust（In-trust）损失函数，实现了优于其他先进方法的性能。

Apr, 2022

无监督神经机器翻译

本研究提出了一种全新的方法，在没有平行数据的情况下，只利用单语数据即可训练 NMT 系统。这种基于注意力机制的编码器解码器模型结合去噪和回译技术，在 WMT 2014 的法英和德英翻译中获得了 15.56 和 10.21 BLEU 分数，且能够利用少量的平行数据来提高翻译质量。

Oct, 2017

神经机器翻译中的单语数据使用：一项系统研究

本文对神经机器翻译的数据生成进行了系统研究，比较了不同的单语数据使用方法和多个数据生成过程，并介绍了一些便宜易实现的新数据模拟技术。研究发现，通过回译技术生成人工平行数据非常有效，并给出了原因解释。

Mar, 2019

探索和标准化四种写作系统，提升福建双语翻译

本研究旨在填补机器翻译对台湾闽南语等低资源语言的相对忽视之处，通过开发台湾闽南语与繁体中文及英文的双向翻译模型，并利用预训练的 LLaMA2-7B 模型，综合实验跨越台湾闽南语的不同书写系统以及与其他高资源语言之间的翻译任务，最终大大提升了模型的翻译能力，并通过标准化所有台湾闽南语书写系统为福建汉字，进一步提高了性能；另外，引入反向翻译和 GPT-4 结合的评估方法，确保了对低资源语言的可靠翻译质量评估；此研究有助于缩小台湾闽南语的资源差距，并从实证角度研究了基于 LLaMA 2 的预训练和微调的优势和局限性。

Mar, 2024