Yorùbá-English 神经机器翻译中领域和重音的影响

MMMar, 2021

Yorùbá-English 神经机器翻译中领域和重音的影响

The Effect of Domain and Diacritics in Yorùbá-English Neural Machine Translation

David I. Adelani, Dana Ruiter, Jesujoba O. Alabi, Damilola Adebonojo, Adesina Ayeni...

TL;DR本研究提出了 MENYO-20k，这是一个首个多领域平行语料库，专注于干净的约鲁巴语和英语，为基准测试提供标准化的训练集 - 测试集划分。研究人员提供了几个神经机器翻译基准测试，并将它们与流行的预训练（大规模多语种）机器翻译模型的性能进行了比较。出乎意料的是，他们的模型效果超过了谷歌（+8.7 BLEU）和 Facebook M2M（+9.1 BLEU）这样的大规模多语种模型，为未来的研究设定了高质量的基准。

Abstract

Massively multilingual machine translation (MT) has shown impressive capabilities, including zero and few-shot translation between low-resource language pairs. However, these models are often evaluated on high-resource languages with the assumption that they generalize to low-resource

machine translation low-resource languages parallel corpus yoruba-english neural mt benchmarks

发现论文，激发创造

机器翻译、变音符号与变音处理的相互作用

我们研究了机器翻译和变音符号在多任务学习环境中相互影响的表现以及在机器翻译性能上保留（与去除）变音符号的影响。在 55 种不同语言（36 种非洲语言和 19 种欧洲语言）的高资源和低资源设置中，我们发现：对于第一个问题，变音符号对低资源情况下的机器翻译性能有重要的帮助作用，对某些语言甚至使性能提升两倍或三倍，但对高资源情况下的机器翻译性能有害；我们发现对于某些语言，机器翻译对低资源情况下的变音符号处理有害，但对高资源情况下的处理有显著好处。对于第二个问题，无论保留还是去除变音符号，机器翻译性能都相似。此外，我们提出了两类度量变音符号系统复杂性的指标，发现这些指标与我们的变音符号模型的性能呈正相关。总的来说，我们的研究为在不同的数据规模条件下开发机器翻译和变音符号系统提供了洞见，并可能具有超越我们研究范围的 55 种语言的普适意义。

Apr, 2024

使用单语语料库进行神经机器翻译

本篇论文研究了如何利用丰富的单语语料库对神经机器翻译进行建模，结果表明在低资源的土耳其 - 英语和中英文聊天信息场景下，相较于短语和层级翻译，可以提高高达 1.96 和 1.59 的 BLEU 值，同时也适用于高资源语言，例如捷克语 - 英语和德语 - 英语，并成功提高了 0.39 和 0.47 个 BLEU 分数。

Mar, 2015

医疗领域中领域适应的多语言神经机器翻译的影响

研究调整后的多领域神经机器翻译模型在医学领域的表现，通过自动度量和错误分类注释后的人工分析发现，与领域外的 MNMT 相比，领域内的 MNMT 在所有测量的自动度量上表现更好，并且产生更少的术语错误。

Dec, 2022

基于注意力机制的序列到序列学习在 Yorùbá 语文本的音标恢复中的应用

本论文提出了两种不同的基于注意力机制的序列到序列神经网络模型来处理未带变音符的约鲁巴语文本，将自动变音符恢复重新定位为机器翻译任务。在评估数据集上，这种方法产生少于 5％的变音符错误率，并开源了预训练模型、数据集和源代码项目，以推进约鲁巴语言技术的努力。

Apr, 2018

神经机器翻译中低资源域适应的正确配方寻找

本研究探讨了针对预训练第三方 NMT 模型的单语和平行数据方法在领域适应中的效果，在低资源条件下提出了集成方法来缓解翻译质量的降低，并给出了在三个领域和四个语言对中的建议。

Jun, 2022

改善 Yorùbá 重音恢复

近年来，我们通过聚合和改进来自互联网和各种个人图书馆的不同文本，使我们的干净的 Yoruba 数据集从以 Bibilical 文本语料库为主，来源有三个，增长到来自十多个来源的数百万标记。我们评估了对现代新闻文本进行多用途选择和反映当代使用的公共领域 Yoruba 评估数据集上的更新的变音恢复模型。所有预训练的模型、数据集和源代码都已作为开源项目发布，以推进 Yoruba 语言技术的发展。

Mar, 2020

评估土耳其语系多语言多向 NMT 技术

本研究通过对土耳其语系 22 种语言的大规模机器翻译系统的培训和评估，发现 MNMT 模型在领域外测试集中的表现优于几乎所有双语基线，并在单对下游任务的微调中也获得了巨大的性能提升。

Sep, 2021

多域多语言神经机器翻译中，能否跨语言进行域传递？

本文讨论了如何在多领域和多语言神经机器翻译 (MDML-NMT) 中跨语言传输领域信息，以提高零样本翻译性能和帮助域缺失的多领域 NMT 的泛化。通过组合多语言和多领域 NMT 及添加编码器目标语言标签等有效策略，实现了学习到有针对性的表示和提高性能的目的。

Oct, 2022

CODET: 机器翻译方言对比评估基准

通过发布一个对比方言基准数据集，我们量化展示了大型 NMT 模型在有效翻译方言变体时面临的挑战。

May, 2023

低资源、形态标记无法处理的环境下的 Yoruba-English 机器翻译

本研究利用语言对比的细粒度分析方法，比较了三种机器翻译模型在汉英翻译中的表现。结果显示，针对使用裸名词的约鲁巴语文本，Transformer 模型表现最好，SMT 和 BiLSTM 在不同分类上各有优劣，与人类翻译模式相比。这些结果对于低资源情况下的模型表现评估提供了一定的启示。

Mar, 2021