MTet: 英越多领域翻译
本文介绍了一个高质量、大规模的越南语 - 英语平行数据集,进行了机器翻译的比较实验,结果表明在预训练序列到序列去噪自编码器 mBART 上的微调获得了最好的性能,这是第一个大规模的越南语 - 英语机器翻译研究,希望这个公开的数据集和研究能成为未来越南语 - 英语机器翻译研究和应用的起点。
Oct, 2021
介绍了 MedEV 数据集,通过对其进行广泛实验,发现对于每个翻译方向,通过对 'vinai-translate' 进行微调,可以实现最佳性能,进而推动进一步的研究。
Mar, 2024
本论文的研究目的是针对低资源语言对英越语言对进行机器翻译,通过构建历史上最大的越南 - 英语语料库以及采用最新的神经机器翻译模型进行广泛实验,从而实现最高 BLEU 得分。该研究为有效使用不同神经机器翻译模型提供了实际示例。
Oct, 2018
本研究介绍了一个高质量和大规模的英越语音翻译基准数据集,并使用强基线进行实证实验,发现传统的 “级联” 方法仍然优于现代的 “端到端” 方法,这是有关大规模英越语音翻译的第一项研究,我们的数据集和研究可用于未来研究和应用的起点。
Aug, 2022
本研究使用英越翻译模型将生物医学数据和基准转化为越南语,并利用大规模的越南语翻译数据训练得到了 ViPubmedT5 编解码 Transformer 模型,该模型在医学摘要和首字母缩写消歧方面取得了最先进的成果,并发布了 ViMedNLI 数据集用于 NLP 任务。
Oct, 2022
我们的研究使用了基于神经网络的 Transformer 模型和 mBART 预训练模型,在 VLSP 2022 机器翻译任务中取得了 38.9 BLEU 的中越翻译和 38.0 BLEU 的越中翻译结果,超过了多个强基准。
Aug, 2023
本篇论文研究了如何利用丰富的单语语料库对神经机器翻译进行建模,结果表明在低资源的土耳其 - 英语和中英文聊天信息场景下,相较于短语和层级翻译,可以提高高达 1.96 和 1.59 的 BLEU 值,同时也适用于高资源语言,例如捷克语 - 英语和德语 - 英语,并成功提高了 0.39 和 0.47 个 BLEU 分数。
Mar, 2015
本文使用端到端的 Siamese 双向递归神经网络从 Wikipedia 的可比较多语言文章中提取并生成平行句子,证明使用所收集的数据集可以提高低资源语言对 (英―印度语和英―泰米尔语) 上的 BLEU 分数。
Jun, 2018
使用神经机器翻译将大型平行语料库的非英语部分翻译为英语,生成超过五千万个英语句子的同义句数据集 PARANMT-50M,该数据集可用于同义句生成,提供丰富的语义知识以改善下游自然语言理解任务。我们使用 PARANMT-50M 训练了同义句嵌入,能在所有 SemEval 基于语义相似度的比赛中胜过所有监督系统,并展示了它在同义句生成中的应用。
Nov, 2017
通过多向设置和数据增强等方式,我们的 Vega-MT 在多语种翻译任务中取得了第一名,并将模型释放到 GitHub 和 OmniForce 平台进行进一步使用。
Sep, 2022