低资源语言医疗翻译实现

MMOct, 2016

Enabling Medical Translation for Low-Resource Languages

Ahmad Musleh, Nadir Durrani, Irina Temnikova, Preslav Nakov, Stephan Vogel...

TL;DR本研究聚焦于解决卡塔尔移民工人与医务人员之间的语言障碍问题，尤其是通过开发一种真实可行的印地语 - 英语机器翻译系统来提高医生和患者之间的交流质量，我们采用了各种方法来收集适合的训练数据，并成功地通过生成合成变量的方法自动扩充训练数据，从而实现了 BLEU 分数绝对值提高超过 3 分。

Abstract

We present research towards bridging the language gap between migrant workers in Qatar and medical staff. In particular, we present the first steps towards the development of a real-world Hindi-English

language gap migrant workers machine translation training data medical domain

发现论文，激发创造

在低资源环境下利用翻译进行语音转录

研究对濒危语言的数据采集，利用多源神经网络模型和翻译，成功提高了转录质量。

Mar, 2018

无人被落下的语言：人本机器翻译的扩展

本文介绍了一项针对低资源语言的研究，使用 Sparsely Gated Mixture of Experts 模型结合新的数据挖掘技术进行训练，从而实现了机器翻译中对于低资源语言的支持并提高了 BLEU 值。

Jul, 2022

利用多语言技术进行非监督式稀有语言机器翻译

本文研究了针对低资源稀有语种的无监督翻译问题，提出了一个三阶段训练方案的多语种模型，结合了单语和辅助并行数据，取得了明显优于当前无监督基准线的效果。

Sep, 2020

大规模多语言文本翻译低资源语言

通过利用资源丰富的语言的翻译资源，我们可以高效地将多种已知语言的限定文本翻译成新的资源匮乏语言，从而实现与人工翻译员合作，加快翻译进程。

Jan, 2024

利用可比语料库诱导的双语词典进行低资源语言的神经机器翻译

本文使用端到端的 Siamese 双向递归神经网络从 Wikipedia 的可比较多语言文章中提取并生成平行句子，证明使用所收集的数据集可以提高低资源语言对 (英―印度语和英―泰米尔语) 上的 BLEU 分数。

Jun, 2018

通过大规模翻译丰富低资源语言的生物医学知识

本研究使用英越翻译模型将生物医学数据和基准转化为越南语，并利用大规模的越南语翻译数据训练得到了 ViPubmedT5 编解码 Transformer 模型，该模型在医学摘要和首字母缩写消歧方面取得了最先进的成果，并发布了 ViMedNLI 数据集用于 NLP 任务。

Oct, 2022

低资源神经机器翻译的数据增强

本研究提出了一种以数据增强为基础的方法，针对低频词汇在合成的新语境中生成新的句子对，以提高神经机器翻译系统的翻译质量。在模拟低资源环境中的实验结果显示，相对于基准和回译方法，我们的方法能够提高翻译质量，最高可提高 2.9 BLEU 分数。

May, 2017

机器翻译中印度语言的低资源状态再探讨

本文提供并分析了一个用于印度语神经机器翻译系统的大规模多语言句子对齐语料库和强大基准的自动化框架，其中包括基线 NMT 系统，检索模块和用于公共网站的对齐模块，通过迭代增加语料库来改进系统。我们的工作还评估了设计选择，例如枢轴语言的选择和迭代式增量语料库增加的影响。与现有的印度语语料库相比，本工作不仅提供了自动化框架，还产生了一个相对较大的语料库。这个语料库使我们能够在公开的 WAT 评估基准和其他标准评估基准上获得明显改善的结果。

Aug, 2020

医学 mT5：一个开源的医学领域的多语言文本到文本 LLM

目前，医疗应用的语言技术研究是自然语言理解和生成中的一个热门话题。本文通过编制迄今为止在医疗领域最大的四种语言（英语、法语、意大利语和西班牙语）的多语言语料库，训练出医学领域首个开源的多语言文本对文本模型 Medical mT5，并提出两个新的评估基准，以促进该领域的多语言研究。全面评估结果显示，Medical mT5 在西班牙语、法语和意大利语基准中优于编码器和同等规模的文本对文本模型，与当前最先进的英语大型语言模型具有竞争力。

Apr, 2024

增强低资源语言的神经机器翻译：语料库开发、人工评估和可解释 AI 架构

该研究旨在研究机器翻译中 Transformer 模型在低资源语言对（英爱尔兰语和英马拉地语）中的效果，并通过优化超参数和子词模型类型来显著提高低资源语言对的翻译质量。此外，还引入了 adaptNMT 和 adaptMLLM 两个开源应用程序，简化了神经机器翻译模型的开发、微调和部署过程，使其更容易被开发人员和翻译人员使用。

Mar, 2024