VLSP 2022 年 VBD-MT 中越翻译系统
本文介绍了使用多语言 BERT 嵌入和一些新的神经模型,提高越南语序列标记任务的研究。我们提出了新的模型架构,在 VLSP 2016 和 VLSP 2018 两个命名实体识别数据集和 VLSP 2010 和 VLSP 2013 两个词性标记数据集上进行了广泛评估。我们的方法优于现有方法,并实现了新的最先进结果。
Jun, 2020
本报告介绍了我们的 VolcTrans 系统,它是一个基于 Transformer 的多语言模型,使用从多个来源收集的数据进行训练,包括来自数据轨道的公共训练集,由 Meta AI 提供的 NLLB 数据,自收集的平行语料库和来自反向翻译的伪双语文本。在官方测试集上,我们的系统实现了 17.3 BLEU,21.9 spBLEU,和 41.9 chrF2 ++,平均所有语言对的推理速度为每秒 11.5 句,使用单个 Nvidia Tesla V100 GPU。
Oct, 2022
该论文介绍了 Volctrans 团队在 IWSLT 2021 中提交的系统,包括离线语音翻译和文本 - 文本同时翻译。他们采用端到端模型进行离线语音翻译,在 MuST-C 测试集上比基准结果提高了 8.1 BLEU 分值,并接近强级联解决方案的结果。针对文本 - 文本同时翻译,他们探索了最优的 wait-k 模型实践,并且在相同的延迟范围内超过了基准结果约 7 BLEU 分值。他们已发布代码和模型以促进未来的研究工作和工业应用。
May, 2021
本文介绍了一个高质量、大规模的越南语 - 英语平行数据集,进行了机器翻译的比较实验,结果表明在预训练序列到序列去噪自编码器 mBART 上的微调获得了最好的性能,这是第一个大规模的越南语 - 英语机器翻译研究,希望这个公开的数据集和研究能成为未来越南语 - 英语机器翻译研究和应用的起点。
Oct, 2021
本研究使用英越翻译模型将生物医学数据和基准转化为越南语,并利用大规模的越南语翻译数据训练得到了 ViPubmedT5 编解码 Transformer 模型,该模型在医学摘要和首字母缩写消歧方面取得了最先进的成果,并发布了 ViMedNLI 数据集用于 NLP 任务。
Oct, 2022
本研究介绍了 WeChat AI 在 WMT 2021 共享新闻翻译任务中的参与,并使用 Transformer 等多种方法来生成大量的合成数据,从而实现英语到中文、英语到日语、日语到英语和英语到德语的翻译,通过使用高级微调方法和基于 Self-BLEU 的模型加强,得到了 36.9、46.9、27.8 和 31.3 的 BLEU 分数,其中英语到中文、英语到日语和日语到英语的 BLEU 分数是所有提交中最高的,而英语到德语的 BLEU 分数是所有有限制的提交中最高的。
Aug, 2021
介绍我们在 WMT20 共享新闻翻译任务中使用的 VolcTrans 系统,该系统基于 Transformer,包括文本预处理、数据选择、合成数据生成、高级模型集成和多语言预训练。
Oct, 2020
我们参加了 WMT 2016 分享的新闻翻译任务,并为四种语言建立了神经翻译系统,每种语言都在英语和其它语言的两个方向上进行训练。使用了基于注意力的编码器 - 解码器、BPE 子词段和自动回译等技术,我们的方法使得我们的结果比基准系统提高了 4.3-11.2 BLEU,人工评估显示我们的系统在 8 个翻译方向中有 7 个是最好的约束系统。
Jun, 2016
本文介绍了首个用于越南社交媒体文本的单语言预训练语言模型 ViSoBERT,该模型使用 XLM-R 架构,在大规模高质量多样化的越南社交媒体文本语料库上进行预训练,并在越南社交媒体文本的情绪识别、仇恨言论检测、情感分析、垃圾评论检测和仇恨言论跨度检测等五个重要的自然语言下游任务中超越了之前最先进的模型。
Oct, 2023
本文介绍了 ViDeBERTa,一种新的越南语预训练单语言模型,使用 DeBERTa 架构在大规模高质量多样化的越南文本语料库上进行预训练,取得了在越南特定的自然语言理解任务上比前文献更好的表现,尤其在问答任务上能取得出色的结果。该模型相较于其他预训练语言模型具有更少的参数,其表现非常出色,并且现已提供供大家使用。
Jan, 2023