针对严重低资源语言,我们使用两种方法以尽可能高的质量翻译跨语言已知的有限文本,结果表明,首先将大型预训练的多语言模型适应到有限的文本领域 / 语言,然后再针对严重低资源语言进行调整表现最好。选择最佳的种子句也可以进一步提高翻译质量,同时将种子句数量降至约 1000 句。
May, 2023
研究对濒危语言的数据采集,利用多源神经网络模型和翻译,成功提高了转录质量。
Mar, 2018
本研究聚焦于解决卡塔尔移民工人与医务人员之间的语言障碍问题,尤其是通过开发一种真实可行的印地语 - 英语机器翻译系统来提高医生和患者之间的交流质量,我们采用了各种方法来收集适合的训练数据,并成功地通过生成合成变量的方法自动扩充训练数据,从而实现了 BLEU 分数绝对值提高超过 3 分。
Oct, 2016
本文介绍了一项针对低资源语言的研究,使用 Sparsely Gated Mixture of Experts 模型结合新的数据挖掘技术进行训练,从而实现了机器翻译中对于低资源语言的支持并提高了 BLEU 值。
Jul, 2022
通过实验研究,我们发现在资源有限的情况下,从字符级识别转化成单词级可以显著提高低资源语言语音翻译的速度,并且在训练数据相对较少的情况下,仍然可以实现相对较高的词汇精度和召回率。
提出了一种快速适应机器翻译系统生成不同于标准目标语言的语言变体的框架,通过对英俄翻译系统进行适应,可以生成乌克兰语和白俄罗斯语;适应英挪威博克马尔翻译系统可以生成尼诺斯克语;适应英语 - 阿拉伯语翻译系统可以生成四种阿拉伯方言,与竞争基线相比,取得了显著的改进。
Jun, 2021
本文提出了一种新颖的语言无关方法,通过利用资源丰富的语言与资源贫乏的语言的相似性来改善后者的机器翻译,以达到减少训练数据的目的,并且评估结果表明,在少量并行语料库的情况下,改进了印尼语到英语和西班牙语到英语的翻译质量。
Jan, 2014
本文研究了针对低资源稀有语种的无监督翻译问题,提出了一个三阶段训练方案的多语种模型,结合了单语和辅助并行数据,取得了明显优于当前无监督基准线的效果。
Sep, 2020
对于低资源语言,通过针对性的多语言训练,依照乌拉尔语系为案例进行调整,通过实验证明适应性的词汇大小对于低资源语言的影响相对较小,低资源语言在训练阶段能够进行积极采样而对高资源语言的性能影响微乎其微,从而为特定语境中的语言适应性提供了新的最佳实践。
May, 2024
该研究探索了低资源语言领域的神经机器翻译以及如何通过 NLP 和深度学习技术对语言模型进行改进
Apr, 2023