无监督的普通话 - 粤语机器翻译
本文研究旨在找出方言翻译任务中缺乏平行语料和具有类似语法的两方之间的共性和差异之处,从而建立无监督翻译模型。结果表明,我们的方法在 20 万万普通话和广东话的单语语料库上的性能优于规则 - 基础简体和繁体中文转换以及常规无监督翻译模型。
Dec, 2019
提出了一种基于单语语料的机器翻译方法,该方法使用深度学习技术将两种不同语言的句子映射到相同的潜在空间中,从而学习翻译而不使用任何标记数据,该方法在两种语言对的两个广泛使用的数据集上表现出色。
Oct, 2017
这项研究通过数据增强方法和用于低资源语言的神经机器翻译模型,针对粤语 - 英语的翻译方向进行了 Fine-tune,评估了多个不同指标对翻译效果的自动评价,并开发了一个用户友好的界面,以促进粤语 - 英语机器翻译研究。
Mar, 2024
本研究提出了一种全新的方法,在没有平行数据的情况下,只利用单语数据即可训练 NMT 系统。这种基于注意力机制的编码器解码器模型结合去噪和回译技术, 在 WMT 2014 的法英和德英翻译中获得了 15.56 和 10.21 BLEU 分数,且能够利用少量的平行数据来提高翻译质量。
Oct, 2017
本文提出了一种基于古汉语和现代汉语特点的 Ancient-Modern Chinese 从句对齐方法,综合了基于词汇和统计信息的两种方法,用于创建了一个包含 124 万个双语对的大规模语料库,并分析了在此数据集上各种机器翻译模型的性能,并为该任务提供了强大的基准。
Aug, 2018
本文介绍了英语翻译,适用于部分通话家庭普通话数据和香港科技大学普通话电话语音数据的语音翻译任务。研究表明,将通用翻译模型微调为普通话 - 英语对话电话语音训练集可以使目标领域 BLEU 提高 8 个百分点以上,突显了配对训练数据的重要性。
Mar, 2024
即使有深度学习和大规模语言建模的最新发展,对于低资源语言的机器翻译任务仍然是一个挑战。我们提出了一种训练策略,依赖于从单语语料库中挖掘的伪平行句对和从单语语料库中反向翻译的合成句对。我们尝试了不同的训练计划,并在基于仅反向翻译数据训练的基线上实现了高达 14.5 BLEU 分(从英语到乌克兰语)的改进。
Oct, 2023
提出了一个概率框架,用于多语言神经机器翻译,特别针对无监督翻译。通过使用一个新型的跨语言翻译损失项,自然地利用其他包含辅助平行数据的语言作为源或目标语之一。实验证明,在大多数方向上,我们的方法导致在 WMT'14 英语 - 法语、WMT'16 英语 - 德语和 WMT'16 英语 - 罗马尼亚语数据集上,BLEU 得分比最先进的无监督模型高,并且在罗马尼亚语 - 英语方向上,我们获得了比最佳无监督模型高 1.65 的 BLEU 优势。
Feb, 2020
该研究研究了如何在只有大型单语语料库的情况下学习翻译。提出了两种模型,一种是神经模型,一种是基于短语的模型。这些模型通过参数的精心初始化、语言模型的去噪效应和反向迭代自动生成的并行数据来提高翻译性能。在 WMT'14 英语 - 法语和 WMT'16 德语 - 英语 基准测试上,这些模型分别获得 28.1 和 25.2 BLEU 分数,比现有方法的 BLEU 分数高出 11 个分数。方法在英语 - 乌尔都语和英语 - 罗马尼亚语等低资源语言中也取得了良好的结果。
Apr, 2018