无监督的普通话 - 粤语机器翻译 | BriefGPT

Jan, 2023

无监督的普通话 - 粤语机器翻译

Unsupervised Mandarin-Cantonese Machine Translation

Megan Dare, Valentina Fajardo Diaz, Averie Ho Zoen So, Yifan Wang, Shibingfeng Zhang

TL;DR本研究探讨了基于无监督机器翻译的普通话和粤语之间的翻译，通过构建包含约 100 万个粤语句子的语料库，以及采用基于字符的分词和 Transformer 架构的模型，实现了最佳的翻译效果。

Abstract

Advancements in unsupervised machine translation have enabled the development of machine translation systems that can translate between languages for which there is not an abundance of parallel data available. We explored unsupervised machine translation between →

unsupervised machine translation mandarin chinese cantonese corpus transformer architecture

发现论文，激发创造

基于共性和多样性建模的无监督神经方言翻译

本文研究旨在找出方言翻译任务中缺乏平行语料和具有类似语法的两方之间的共性和差异之处，从而建立无监督翻译模型。结果表明，我们的方法在 20 万万普通话和广东话的单语语料库上的性能优于规则 - 基础简体和繁体中文转换以及常规无监督翻译模型。

Dec, 2019

研究粤语 - 英语神经机器翻译中的逆向翻译和模型切换机制

本研究探讨了从粤语到英语的机器翻译模型的开发和评估，并提出了一种应对低资源语言翻译的新方法。

May, 2024

利用单语语料库进行非监督式机器翻译

提出了一种基于单语语料的机器翻译方法，该方法使用深度学习技术将两种不同语言的句子映射到相同的潜在空间中，从而学习翻译而不使用任何标记数据，该方法在两种语言对的两个广泛使用的数据集上表现出色。

Oct, 2017

CantonMT: 使用合成逆向翻译数据对精细调优模型的粤英机器翻译平台

这项研究通过数据增强方法和用于低资源语言的神经机器翻译模型，针对粤语 - 英语的翻译方向进行了 Fine-tune，评估了多个不同指标对翻译效果的自动评价，并开发了一个用户友好的界面，以促进粤语 - 英语机器翻译研究。

Mar, 2024

无监督神经机器翻译

本研究提出了一种全新的方法，在没有平行数据的情况下，只利用单语数据即可训练 NMT 系统。这种基于注意力机制的编码器解码器模型结合去噪和回译技术，在 WMT 2014 的法英和德英翻译中获得了 15.56 和 10.21 BLEU 分数，且能够利用少量的平行数据来提高翻译质量。

Oct, 2017

大型训练数据集下的古今中文翻译

本文提出了一种基于古汉语和现代汉语特点的 Ancient-Modern Chinese 从句对齐方法，综合了基于词汇和统计信息的两种方法，用于创建了一个包含 124 万个双语对的大规模语料库，并分析了在此数据集上各种机器翻译模型的性能，并为该任务提供了强大的基准。

Aug, 2018

推进语音翻译：普通话 - 英语电话会话语料库

本文介绍了英语翻译，适用于部分通话家庭普通话数据和香港科技大学普通话电话语音数据的语音翻译任务。研究表明，将通用翻译模型微调为普通话 - 英语对话电话语音训练集可以使目标领域 BLEU 提高 8 个百分点以上，突显了配对训练数据的重要性。

Mar, 2024

通过伪平行数据增强无监督机器翻译

即使有深度学习和大规模语言建模的最新发展，对于低资源语言的机器翻译任务仍然是一个挑战。我们提出了一种训练策略，依赖于从单语语料库中挖掘的伪平行句对和从单语语料库中反向翻译的合成句对。我们尝试了不同的训练计划，并在基于仅反向翻译数据训练的基线上实现了高达 14.5 BLEU 分（从英语到乌克兰语）的改进。

Oct, 2023

无监督机器翻译的多语言视角

提出了一个概率框架，用于多语言神经机器翻译，特别针对无监督翻译。通过使用一个新型的跨语言翻译损失项，自然地利用其他包含辅助平行数据的语言作为源或目标语之一。实验证明，在大多数方向上，我们的方法导致在 WMT'14 英语 - 法语、WMT'16 英语 - 德语和 WMT'16 英语 - 罗马尼亚语数据集上，BLEU 得分比最先进的无监督模型高，并且在罗马尼亚语 - 英语方向上，我们获得了比最佳无监督模型高 1.65 的 BLEU 优势。

Feb, 2020

基于短语和神经网络的无监督机器翻译

该研究研究了如何在只有大型单语语料库的情况下学习翻译。提出了两种模型，一种是神经模型，一种是基于短语的模型。这些模型通过参数的精心初始化、语言模型的去噪效应和反向迭代自动生成的并行数据来提高翻译性能。在 WMT'14 英语 - 法语和 WMT'16 德语 - 英语基准测试上，这些模型分别获得 28.1 和 25.2 BLEU 分数，比现有方法的 BLEU 分数高出 11 个分数。方法在英语 - 乌尔都语和英语 - 罗马尼亚语等低资源语言中也取得了良好的结果。

Apr, 2018