MTet: 英越多领域翻译

Oct, 2022

MTet: Multi-domain Translation for English and Vietnamese

PDF

Chinh Ngo, Trieu H. Trinh, Long Phan, Hieu Tran, Tai Dang...

TL;DRMTet 是最大的公开平行语料库，包含 420 万高质量的训练句对和一个多领域测试集，同时发布了首个预训练的 EnViT5 模型，与之前的研究相比，其翻译 BLEU 得分最多提高 2 分，同时比之前的模型小 1.6 倍。

Abstract

We introduce mtet, the largest publicly available parallel corpus for english-vietnamese translation. →

mtet parallel corpus english-vietnamese translation pretrained model bleu score

发现论文，激发创造

PhoMT: 一个高质量和大规模的越南语 - 英语机器翻译基准数据集

本文介绍了一个高质量、大规模的越南语 - 英语平行数据集，进行了机器翻译的比较实验，结果表明在预训练序列到序列去噪自编码器 mBART 上的微调获得了最好的性能，这是第一个大规模的越南语 - 英语机器翻译研究，希望这个公开的数据集和研究能成为未来越南语 - 英语机器翻译研究和应用的起点。

Oct, 2021

改善越南 - 英文医学机器翻译

介绍了 MedEV 数据集，通过对其进行广泛实验，发现对于每个翻译方向，通过对 'vinai-translate' 进行微调，可以实现最佳性能，进而推动进一步的研究。

Mar, 2024

越南语和英语之间的机器翻译：一项实证研究

本论文的研究目的是针对低资源语言对英越语言对进行机器翻译，通过构建历史上最大的越南 - 英语语料库以及采用最新的神经机器翻译模型进行广泛实验，从而实现最高 BLEU 得分。该研究为有效使用不同神经机器翻译模型提供了实际示例。

Oct, 2018

一个高质量且大规模的英越语音翻译数据集

本研究介绍了一个高质量和大规模的英越语音翻译基准数据集，并使用强基线进行实证实验，发现传统的 “级联” 方法仍然优于现代的 “端到端” 方法，这是有关大规模英越语音翻译的第一项研究，我们的数据集和研究可用于未来研究和应用的起点。

Aug, 2022

通过大规模翻译丰富低资源语言的生物医学知识

本研究使用英越翻译模型将生物医学数据和基准转化为越南语，并利用大规模的越南语翻译数据训练得到了 ViPubmedT5 编解码 Transformer 模型，该模型在医学摘要和首字母缩写消歧方面取得了最先进的成果，并发布了 ViMedNLI 数据集用于 NLP 任务。

Oct, 2022

VLSP 2022 年 VBD-MT 中越翻译系统

我们的研究使用了基于神经网络的 Transformer 模型和 mBART 预训练模型，在 VLSP 2022 机器翻译任务中取得了 38.9 BLEU 的中越翻译和 38.0 BLEU 的越中翻译结果，超过了多个强基准。

Aug, 2023

使用单语语料库进行神经机器翻译

本篇论文研究了如何利用丰富的单语语料库对神经机器翻译进行建模，结果表明在低资源的土耳其 - 英语和中英文聊天信息场景下，相较于短语和层级翻译，可以提高高达 1.96 和 1.59 的 BLEU 值，同时也适用于高资源语言，例如捷克语 - 英语和德语 - 英语，并成功提高了 0.39 和 0.47 个 BLEU 分数。

Mar, 2015

利用可比语料库诱导的双语词典进行低资源语言的神经机器翻译

本文使用端到端的 Siamese 双向递归神经网络从 Wikipedia 的可比较多语言文章中提取并生成平行句子，证明使用所收集的数据集可以提高低资源语言对 (英―印度语和英―泰米尔语) 上的 BLEU 分数。

Jun, 2018

ParaNMT-50M：用数百万机器翻译推进释义句嵌入的极限

使用神经机器翻译将大型平行语料库的非英语部分翻译为英语，生成超过五千万个英语句子的同义句数据集 PARANMT-50M，该数据集可用于同义句生成，提供丰富的语义知识以改善下游自然语言理解任务。我们使用 PARANMT-50M 训练了同义句嵌入，能在所有 SemEval 基于语义相似度的比赛中胜过所有监督系统，并展示了它在同义句生成中的应用。

Nov, 2017

Vega-MT: WMT22 京东探索学院翻译系统

通过多向设置和数据增强等方式，我们的 Vega-MT 在多语种翻译任务中取得了第一名，并将模型释放到 GitHub 和 OmniForce 平台进行进一步使用。

Sep, 2022