低资源机器翻译调查
本文提出三种工具:MTData、NLCodec 和 RTG,设计一个能够从 500 种源语言翻译成英语的多语言神经机器翻译模型,支持语言种类很多,且模型容易下载和使用。
Apr, 2021
本文介绍了对低资源语言 NMT(LRL-NMT)的研究进展进行了详细调查,并定量分析了最受欢迎的解决方案,提供了一组指南来选择给定 LRL 数据设置的可能的 NMT 技术。它还呈现了 LRL-NMT 研究领域的完整视图,并提供了进一步增强 LRL-NMT 研究工作的建议清单。
Jun, 2021
本文对低资源神经机器翻译进行了调查,并根据所使用的辅助数据将相关作品分为三类:利用源语言和 / 或目标语言的单语数据,利用来自辅助语言的数据以及利用多模态数据。该调查有助于研究人员更好地理解该领域,鼓励他们设计更好的算法,也有助于帮助行业从业者选择适合其应用程序的算法。
Jul, 2021
本文研究通过引入更多本地依赖关系和使用单词对齐来学习翻译过程中的句子重新排序,在低资源语言中使用神经机器翻译 (NMT) 模型,产生仅使用 7 万个训练数据令人满意的翻译结果。
Aug, 2017
描述了我们构建跨越 1000 个语言翻译的实用机器翻译系统的努力,包括构建干净的数据集、使用监督并行数据训练的大规模多语言模型和单语数据集以及研究评估语言的限制和误差模式。
May, 2022
提出了一种快速适应机器翻译系统生成不同于标准目标语言的语言变体的框架,通过对英俄翻译系统进行适应,可以生成乌克兰语和白俄罗斯语;适应英挪威博克马尔翻译系统可以生成尼诺斯克语;适应英语 - 阿拉伯语翻译系统可以生成四种阿拉伯方言,与竞争基线相比,取得了显著的改进。
Jun, 2021
研究了最近神经机器翻译 (NMT) 在英语和五种非洲低资源语言 (LRL) 对之间的效果,并表明多语言模型 (multilingual approach) 在某些翻译方向上有 +5 分数的提升。同时,提供标准的实验数据和测试集以供未来的研究使用。
Mar, 2020
本文探讨了在语料库仅包含 324000 个句子的低质量语言对中使用迁移学习和半监督学习技术以优化神经机器翻译的效果,并且实验证明,这些技术应用于基础 Transformer 模型后,俄塔语对翻译质量提高了 2.57 和 3.66 个 BLEU 指标。
Oct, 2019
本文介绍了一项针对低资源语言的研究,使用 Sparsely Gated Mixture of Experts 模型结合新的数据挖掘技术进行训练,从而实现了机器翻译中对于低资源语言的支持并提高了 BLEU 值。
Jul, 2022