该研究提出了一种转移学习的方法,通过先训练一个高资源语言对以及将一些已学习的参数转移至低资源语言对,来初始化和约束训练,显著提高了Bleu分数,并将低资源机器翻译性能接近于强的基于语法的机器翻译系统,超过了其一个语言对的性能,并且用于重新评分可以进一步提高低资源机器翻译的表现。
Apr, 2016
本文研究通过引入更多本地依赖关系和使用单词对齐来学习翻译过程中的句子重新排序,在低资源语言中使用神经机器翻译(NMT)模型,产生仅使用7万个训练数据令人满意的翻译结果。
Aug, 2017
文章介绍了一种不需要共享词汇的方法,使用跨语言词嵌入来缓解语言间的词汇不匹配,注入人工噪声,从预训练数据轻松生成合成数据,并在五种低资源翻译任务中将纯NMT转移提高了+5.1% BLEU,优于多语言联合训练。
May, 2019
本文探讨神经网络机器翻译(NMT)在低资源条件下性能下降的原因,提出适应低资源环境时的注意事项和最佳实践,并在德语-英语和韩语-英语低资源翻译数据集上进行实验,发现经过优化的NMT系统可以在没有使用其他语言辅助数据的情况下,比以前报告的更少数据超越采用词组统计的基于规则的机器翻译(PBSMT),BLEU指标超过4个点。
本文提出了一种新的多语种多阶段微调方法,融合了领域自适应、多语言和反向翻译,通过利用域外数据的转移学习方法来帮助改善日俄低资源神经机器翻译的质量。
Jul, 2019
本文提出一种简单但有效的方法,即将目标语句重新排序以匹配源语序,并将其作为另外一种训练时的监督信号,从而在模拟低资源日语 - 英语和真实低资源维吾尔 - 英语语种中获得显着改进。
Aug, 2019
本文介绍了对低资源语言NMT(LRL-NMT)的研究进展进行了详细调查,并定量分析了最受欢迎的解决方案,提供了一组指南来选择给定LRL数据设置的可能的NMT技术。它还呈现了LRL-NMT研究领域的完整视图,并提供了进一步增强LRL-NMT研究工作的建议清单。
Jun, 2021
本文对低资源神经机器翻译进行了调查,并根据所使用的辅助数据将相关作品分为三类:利用源语言和/或目标语言的单语数据,利用来自辅助语言的数据以及利用多模态数据。该调查有助于研究人员更好地理解该领域,鼓励他们设计更好的算法,也有助于帮助行业从业者选择适合其应用程序的算法。
Jul, 2021
本研究探讨了针对预训练第三方 NMT 模型的单语和平行数据方法在领域适应中的效果,在低资源条件下提出了集成方法来缓解翻译质量的降低,并给出了在三个领域和四个语言对中的建议。
Jun, 2022
本文探讨了将大型语言模型(LLMs)适应低资源翻译所需的条件,重点分析了平行数据的重要性和监督微调中的多样性对性能的影响。研究发现,平行数据在预训练和微调过程中对低资源LLM-MT至关重要,而多样性往往导致干扰而非迁移。这些发现具有普遍性,对提升低资源语言的多语种LLM-MT模型具有重要价值。
Aug, 2024