低资源语言医疗翻译实现
本文介绍了一项针对低资源语言的研究,使用 Sparsely Gated Mixture of Experts 模型结合新的数据挖掘技术进行训练,从而实现了机器翻译中对于低资源语言的支持并提高了 BLEU 值。
Jul, 2022
本文研究了针对低资源稀有语种的无监督翻译问题,提出了一个三阶段训练方案的多语种模型,结合了单语和辅助并行数据,取得了明显优于当前无监督基准线的效果。
Sep, 2020
本文使用端到端的 Siamese 双向递归神经网络从 Wikipedia 的可比较多语言文章中提取并生成平行句子,证明使用所收集的数据集可以提高低资源语言对 (英―印度语和英―泰米尔语) 上的 BLEU 分数。
Jun, 2018
本研究使用英越翻译模型将生物医学数据和基准转化为越南语,并利用大规模的越南语翻译数据训练得到了 ViPubmedT5 编解码 Transformer 模型,该模型在医学摘要和首字母缩写消歧方面取得了最先进的成果,并发布了 ViMedNLI 数据集用于 NLP 任务。
Oct, 2022
本研究提出了一种以数据增强为基础的方法,针对低频词汇在合成的新语境中生成新的句子对,以提高神经机器翻译系统的翻译质量。在模拟低资源环境中的实验结果显示,相对于基准和回译方法,我们的方法能够提高翻译质量,最高可提高 2.9 BLEU 分数。
May, 2017
本文提供并分析了一个用于印度语神经机器翻译系统的大规模多语言句子对齐语料库和强大基准的自动化框架,其中包括基线 NMT 系统,检索模块和用于公共网站的对齐模块,通过迭代增加语料库来改进系统。我们的工作还评估了设计选择,例如枢轴语言的选择和迭代式增量语料库增加的影响。与现有的印度语语料库相比,本工作不仅提供了自动化框架,还产生了一个相对较大的语料库。这个语料库使我们能够在公开的 WAT 评估基准和其他标准评估基准上获得明显改善的结果。
Aug, 2020
目前,医疗应用的语言技术研究是自然语言理解和生成中的一个热门话题。本文通过编制迄今为止在医疗领域最大的四种语言(英语、法语、意大利语和西班牙语)的多语言语料库,训练出医学领域首个开源的多语言文本对文本模型 Medical mT5,并提出两个新的评估基准,以促进该领域的多语言研究。全面评估结果显示,Medical mT5 在西班牙语、法语和意大利语基准中优于编码器和同等规模的文本对文本模型,与当前最先进的英语大型语言模型具有竞争力。
Apr, 2024
该研究旨在研究机器翻译中 Transformer 模型在低资源语言对(英爱尔兰语和英马拉地语)中的效果,并通过优化超参数和子词模型类型来显著提高低资源语言对的翻译质量。此外,还引入了 adaptNMT 和 adaptMLLM 两个开源应用程序,简化了神经机器翻译模型的开发、微调和部署过程,使其更容易被开发人员和翻译人员使用。
Mar, 2024