低资源机器翻译调查
本文研究通过引入更多本地依赖关系和使用单词对齐来学习翻译过程中的句子重新排序,在低资源语言中使用神经机器翻译(NMT)模型,产生仅使用7万个训练数据令人满意的翻译结果。
Aug, 2017
本文探讨神经网络机器翻译(NMT)在低资源条件下性能下降的原因,提出适应低资源环境时的注意事项和最佳实践,并在德语-英语和韩语-英语低资源翻译数据集上进行实验,发现经过优化的NMT系统可以在没有使用其他语言辅助数据的情况下,比以前报告的更少数据超越采用词组统计的基于规则的机器翻译(PBSMT),BLEU指标超过4个点。
May, 2019
本文探讨了如何利用参与性研究,将机器翻译(MT)技术应用于非洲语言,以解决NLP在地理分布上欠缺多样性并实现NLP的规模化问题。我们提出了一种可行性高并可扩展的情境下的参与式研究方案,其使非专业人员也能对MT技术的开发做出独特的科学贡献,并制定了适用于30多种语言的MT基准。
Oct, 2020
本文提出三种工具:MTData、NLCodec 和 RTG,设计一个能够从 500 种源语言翻译成英语的多语言神经机器翻译模型,支持语言种类很多,且模型容易下载和使用。
Apr, 2021
本文介绍了对低资源语言NMT(LRL-NMT)的研究进展进行了详细调查,并定量分析了最受欢迎的解决方案,提供了一组指南来选择给定LRL数据设置的可能的NMT技术。它还呈现了LRL-NMT研究领域的完整视图,并提供了进一步增强LRL-NMT研究工作的建议清单。
Jun, 2021
本文对低资源神经机器翻译进行了调查,并根据所使用的辅助数据将相关作品分为三类:利用源语言和/或目标语言的单语数据,利用来自辅助语言的数据以及利用多模态数据。该调查有助于研究人员更好地理解该领域,鼓励他们设计更好的算法,也有助于帮助行业从业者选择适合其应用程序的算法。
Jul, 2021
描述了我们构建跨越1000个语言翻译的实用机器翻译系统的努力,包括构建干净的数据集、使用监督并行数据训练的大规模多语言模型和单语数据集以及研究评估语言的限制和误差模式。
May, 2022
本篇研究介绍了SMaLL-100这一经过精简的、涵盖了100种语言的多语言机器翻译模型,并证明它在处理低资源语言方面能够超越之前的大规模多语言模型。
Oct, 2022
本研究通过一系列实验翻译南安第斯克丘亚语为西班牙语,探究预训练大型语言模型在自动化机器翻译中从低资源语言到高资源语言的上下文学习能力。实验结果表明,即使是相对较小的语言模型,在提供了足够相关语言信息的情况下,能够通过提示上下文实现零样本低资源翻译。然而,提示类型、检索方法、模型类型和语言特定因素的不确定效果突显了即使是最佳的语言模型也存在于世界上7000多种语言及其使用者的翻译系统中的限制。
Jun, 2024