大规模多语言文本翻译低资源语言

Jan, 2024

大规模多语言文本翻译低资源语言

Massively Multilingual Text Translation For Low-Resource Languages

Zhong Zhou

TL;DR通过利用资源丰富的语言的翻译资源，我们可以高效地将多种已知语言的限定文本翻译成新的资源匮乏语言，从而实现与人工翻译员合作，加快翻译进程。

Abstract

translation into severely low-resource languages has both the cultural goal of saving and reviving those languages and the humanitarian goal of assisting the everyday needs of local communities that are accelerat

translation severely low-resource languages universal translation engine text-specific translation engine machine translation systems

发现论文，激发创造

全球训练，定制本地化：极简多语翻译应用于濒危语言

针对严重低资源语言，我们使用两种方法以尽可能高的质量翻译跨语言已知的有限文本，结果表明，首先将大型预训练的多语言模型适应到有限的文本领域 / 语言，然后再针对严重低资源语言进行调整表现最好。选择最佳的种子句也可以进一步提高翻译质量，同时将种子句数量降至约 1000 句。

May, 2023

在低资源环境下利用翻译进行语音转录

研究对濒危语言的数据采集，利用多源神经网络模型和翻译，成功提高了转录质量。

Mar, 2018

低资源语言医疗翻译实现

本研究聚焦于解决卡塔尔移民工人与医务人员之间的语言障碍问题，尤其是通过开发一种真实可行的印地语 - 英语机器翻译系统来提高医生和患者之间的交流质量，我们采用了各种方法来收集适合的训练数据，并成功地通过生成合成变量的方法自动扩充训练数据，从而实现了 BLEU 分数绝对值提高超过 3 分。

Oct, 2016

无人被落下的语言：人本机器翻译的扩展

本文介绍了一项针对低资源语言的研究，使用 Sparsely Gated Mixture of Experts 模型结合新的数据挖掘技术进行训练，从而实现了机器翻译中对于低资源语言的支持并提高了 BLEU 值。

Jul, 2022

低资源语音到文本翻译

通过实验研究，我们发现在资源有限的情况下，从字符级识别转化成单词级可以显著提高低资源语言语音翻译的速度，并且在训练数据相对较少的情况下，仍然可以实现相对较高的词汇精度和召回率。

Mar, 2018

低资源语言方言的机器翻译

提出了一种快速适应机器翻译系统生成不同于标准目标语言的语言变体的框架，通过对英俄翻译系统进行适应，可以生成乌克兰语和白俄罗斯语；适应英挪威博克马尔翻译系统可以生成尼诺斯克语；适应英语 - 阿拉伯语翻译系统可以生成四种阿拉伯方言，与竞争基线相比，取得了显著的改进。

Jun, 2021

利用相关资源丰富的语言来改进资源匮乏语言的统计机器翻译

本文提出了一种新颖的语言无关方法，通过利用资源丰富的语言与资源贫乏的语言的相似性来改善后者的机器翻译，以达到减少训练数据的目的，并且评估结果表明，在少量并行语料库的情况下，改进了印尼语到英语和西班牙语到英语的翻译质量。

Jan, 2014

利用多语言技术进行非监督式稀有语言机器翻译

本文研究了针对低资源稀有语种的无监督翻译问题，提出了一个三阶段训练方案的多语种模型，结合了单语和辅助并行数据，取得了明显优于当前无监督基准线的效果。

Sep, 2020

针对低资源语言家族的定向多语言适应

对于低资源语言，通过针对性的多语言训练，依照乌拉尔语系为案例进行调整，通过实验证明适应性的词汇大小对于低资源语言的影响相对较小，低资源语言在训练阶段能够进行积极采样而对高资源语言的性能影响微乎其微，从而为特定语境中的语言适应性提供了新的最佳实践。

May, 2024

低资源语言的神经机器翻译

该研究探索了低资源语言领域的神经机器翻译以及如何通过 NLP 和深度学习技术对语言模型进行改进

Apr, 2023