BARTpho: 为越南语预训练的序列到序列模型
PhoBERT 是第一个用于越南语的公开大规模单语言模型,实验结果表明,PhoBERT 在多个越南特定的自然语言处理任务中表现优异,胜过最近最好的预训练多语种模型 XLM-R,我们发布了 PhoBERT 以促进未来的越南语自然语言处理研究和下游应用。
Mar, 2020
我们引入了一种基于 Transformer 的越南模型 BARTPhoBEiT,该模型包括了预训练的越南序列到序列和双向编码器表示,用于评估越南语 VQA 数据集,并在准确度、精确度、召回率、F1 得分、WUPS 0.0 和 WUPS 0.9 等六个指标上优于强基准模型和现有最先进模型。
Jul, 2023
本文介绍了一个高质量、大规模的越南语 - 英语平行数据集,进行了机器翻译的比较实验,结果表明在预训练序列到序列去噪自编码器 mBART 上的微调获得了最好的性能,这是第一个大规模的越南语 - 英语机器翻译研究,希望这个公开的数据集和研究能成为未来越南语 - 英语机器翻译研究和应用的起点。
Oct, 2021
我们为越南语开源了一种最先进的 7.5B 参数生成模型系列 PhoGPT,包括基础的预训练单语模型 PhoGPT-7B5 及其指令遵循变体 PhoGPT-7B5-Instruct。此外,通过人工评估实验,我们还展示了其比以前的开源模型表现出更高的性能。
Nov, 2023
本文介绍了 ViDeBERTa,一种新的越南语预训练单语言模型,使用 DeBERTa 架构在大规模高质量多样化的越南文本语料库上进行预训练,取得了在越南特定的自然语言理解任务上比前文献更好的表现,尤其在问答任务上能取得出色的结果。该模型相较于其他预训练语言模型具有更少的参数,其表现非常出色,并且现已提供供大家使用。
Jan, 2023
本文介绍了首个用于越南社交媒体文本的单语言预训练语言模型 ViSoBERT,该模型使用 XLM-R 架构,在大规模高质量多样化的越南社交媒体文本语料库上进行预训练,并在越南社交媒体文本的情绪识别、仇恨言论检测、情感分析、垃圾评论检测和仇恨言论跨度检测等五个重要的自然语言下游任务中超越了之前最先进的模型。
Oct, 2023
BART 是一种预训练序列到序列模型的去噪自编码器,通过使用 Transformer 架构,并使用一些创新方法,如随机调换原始数据序列的顺序和填充原始数据中的实体,使得 BART 在文本生成、理解任务以及抽象对话等方面性能表现出色,超越了 RoBERTa,并提供了 1.1 个 BLEU 的机器翻译增量。
Oct, 2019
本篇论文介绍了 GreekBART,这是第一个基于 BART-base 架构的 Seq2Seq 模型,经过大规模希腊语语料库的预训练。我们评估并比较了 GreekBART 与 BART-random、Greek-BERT 和 XLM-R 在各种区分性任务上的表现,并研究了其在两个来自 GreekSUM 的 Greek 语言生成任务中的性能。模型、代码和数据集将公开提供。
Apr, 2023
我们首次提出了名为 PhoNLP 的多任务学习模型,可用于联合越南文词性标注、命名实体识别和依存分析,并在越南基准数据集上表现出优秀的效果。我们将 PhoNLP 开源发布作为一个工具包,可直接应用于其他语言的研究和应用中。
Jan, 2021
本文探讨了预训练的序列到序列模型在相关语言群中的应用,关注印欧语言。我们介绍了 IndicBART - 一种针对 11 种印欧语言和英语的多语言序列到序列预训练模型。通过利用印欧语言之间的拼写相似性,IndicBART 在类似印欧语言之间进行转移学习,获得了不错的性能表现。研究表明,即使相对较小的 IndicBART 模型在机器翻译和极端摘要等任务上也具有与大型预训练模型相媲美的性能,甚至在很低资源的情况下依然表现优异。模型参数共享,多语言训练等技术有助于提高 IndicBART 模型的性能水平。
Sep, 2021