本研究使用英越翻译模型将生物医学数据和基准转化为越南语,并利用大规模的越南语翻译数据训练得到了 ViPubmedT5 编解码 Transformer 模型,该模型在医学摘要和首字母缩写消歧方面取得了最先进的成果,并发布了 ViMedNLI 数据集用于 NLP 任务。
Oct, 2022
本论文的研究目的是针对低资源语言对英越语言对进行机器翻译,通过构建历史上最大的越南 - 英语语料库以及采用最新的神经机器翻译模型进行广泛实验,从而实现最高 BLEU 得分。该研究为有效使用不同神经机器翻译模型提供了实际示例。
Oct, 2018
本文介绍了一个高质量、大规模的越南语 - 英语平行数据集,进行了机器翻译的比较实验,结果表明在预训练序列到序列去噪自编码器 mBART 上的微调获得了最好的性能,这是第一个大规模的越南语 - 英语机器翻译研究,希望这个公开的数据集和研究能成为未来越南语 - 英语机器翻译研究和应用的起点。
Oct, 2021
MTet 是最大的公开平行语料库,包含 420 万高质量的训练句对和一个多领域测试集,同时发布了首个预训练的 EnViT5 模型,与之前的研究相比,其翻译 BLEU 得分最多提高 2 分,同时比之前的模型小 1.6 倍。
本研究聚焦于解决卡塔尔移民工人与医务人员之间的语言障碍问题,尤其是通过开发一种真实可行的印地语 - 英语机器翻译系统来提高医生和患者之间的交流质量,我们采用了各种方法来收集适合的训练数据,并成功地通过生成合成变量的方法自动扩充训练数据,从而实现了 BLEU 分数绝对值提高超过 3 分。
Oct, 2016
本研究介绍了一个高质量和大规模的英越语音翻译基准数据集,并使用强基线进行实证实验,发现传统的 “级联” 方法仍然优于现代的 “端到端” 方法,这是有关大规模英越语音翻译的第一项研究,我们的数据集和研究可用于未来研究和应用的起点。
Aug, 2022
本研究发布了一个越南的医疗问题数据集,具有句子层次和实体层次的注释,旨在改善基于任务的医疗聊天机器人对病人问题的理解能力,并提出了一种自监督的训练策略。
Apr, 2023
VietMed 是目前世界上最大的公共医学语音识别数据集,涵盖了语音数据、医学领域、越南语、预训练模型等方面,同时还包含涉及 ICD-10 疾病群和国内不同口音的数据。
Apr, 2024
本研究探讨了不同的训练方法对用于医学数据的波兰 - 英语机器翻译系统的影响,使用欧洲药品管理局平行文本语料库作为神经和统计网络翻译系统训练的基础,并对主要机器翻译评估指标进行了分析。该研究的重点是比较和实施实时医学翻译器。
Sep, 2015
我们的研究使用了基于神经网络的 Transformer 模型和 mBART 预训练模型,在 VLSP 2022 机器翻译任务中取得了 38.9 BLEU 的中越翻译和 38.0 BLEU 的越中翻译结果,超过了多个强基准。
Aug, 2023