Mainumby: 西班牙语 - 瓜拉尼语翻译助手
针对严重低资源语言,我们使用两种方法以尽可能高的质量翻译跨语言已知的有限文本,结果表明,首先将大型预训练的多语言模型适应到有限的文本领域 / 语言,然后再针对严重低资源语言进行调整表现最好。选择最佳的种子句也可以进一步提高翻译质量,同时将种子句数量降至约 1000 句。
May, 2023
本文介绍了一项针对低资源语言的研究,使用 Sparsely Gated Mixture of Experts 模型结合新的数据挖掘技术进行训练,从而实现了机器翻译中对于低资源语言的支持并提高了 BLEU 值。
Jul, 2022
本文研究通过机器翻译将其他语言翻译成英文进行多语言文本分析,结果表明这种方法在情感分析,主题分析和词嵌入等分析方法上,与使用源语言进行分析的结果相当,机器翻译可以帮助计算机学者做出关于人类沟通的更具包容性和普适性的结论。
Jan, 2023
本研究致力于通过机器翻译和语音合成系统来促进西班牙犹太语(Sephardic Jews 的流亡语言)的复兴,通过创建语料库和工具,帮助保存这种语言,研究者使用规则驱动的机器翻译系统将西班牙语翻译成犹太西班牙语,生成大量的合成平行数据,并根据犹太西班牙语社区的翻译创建了真实的平行数据,训练了基于神经网络的机器翻译引擎,同时还开发了单一发言人的 3.5 小时语音语料库,用于构建神经语音合成引擎,并公开共享了相关资源和引擎。
May, 2022
本研究聚焦于解决卡塔尔移民工人与医务人员之间的语言障碍问题,尤其是通过开发一种真实可行的印地语 - 英语机器翻译系统来提高医生和患者之间的交流质量,我们采用了各种方法来收集适合的训练数据,并成功地通过生成合成变量的方法自动扩充训练数据,从而实现了 BLEU 分数绝对值提高超过 3 分。
Oct, 2016
对于学术研究长期以来忽视的克里奥尔语言,我们提供了到目前为止最大的克里奥尔语机器翻译累积数据集,包括 14.5M 句独特的克里奥尔语句子和平行翻译,其中公开发布的有 11.6M 个;此外,我们还提供了支持 172 个翻译方向的 41 种克里奥尔语言的机器翻译模型,利用这个多样化的数据集,我们的模型在 23 个翻译方向的 34 个中超过了一种专门用于克里奥尔语的模型。
May, 2024
探究多合成语到屈折语的机器翻译难点,通过从三种低资源多合成语 (Nahuatl、Wixarika 和 Yorem Nokki) 到西班牙语和西班牙语到这几种语言之间的翻译实验,分析了多合成语词素在汉语中没有对应转化的难点,归纳了容易无法被匹配的词缀类型。
Jul, 2018
开发了 MayanV 数据集并提供了神经机器翻译模型,这些模型在许多 Mayan 语言资源上进行了训练,并且在 MayanV 数据集上进行了评估,研究发现了不同方言之间的词汇差异,并且其他资源似乎不能提高翻译性能。
Apr, 2024