PhoBERT:越南语预训练语言模型
本文介绍了 ViDeBERTa,一种新的越南语预训练单语言模型,使用 DeBERTa 架构在大规模高质量多样化的越南文本语料库上进行预训练,取得了在越南特定的自然语言理解任务上比前文献更好的表现,尤其在问答任务上能取得出色的结果。该模型相较于其他预训练语言模型具有更少的参数,其表现非常出色,并且现已提供供大家使用。
Jan, 2023
本文介绍了首个用于越南社交媒体文本的单语言预训练语言模型 ViSoBERT,该模型使用 XLM-R 架构,在大规模高质量多样化的越南社交媒体文本语料库上进行预训练,并在越南社交媒体文本的情绪识别、仇恨言论检测、情感分析、垃圾评论检测和仇恨言论跨度检测等五个重要的自然语言下游任务中超越了之前最先进的模型。
Oct, 2023
本文介绍了两个版本的 BARTpho 模型:BARTpho-syllable 和 BARTpho-word,这两个模型是首个由越南语言训练的公共大规模单语序列到序列模型,使用 BART 的预训练机制,适用于生成式自然语言处理任务。在越南文本摘要等下游任务中,BARTpho 比强基线 mBART 表现更好,进一步在越南大写字母和标点符号恢复任务中表现更为有效。
Sep, 2021
我们首次提出了名为 PhoNLP 的多任务学习模型,可用于联合越南文词性标注、命名实体识别和依存分析,并在越南基准数据集上表现出优秀的效果。我们将 PhoNLP 开源发布作为一个工具包,可直接应用于其他语言的研究和应用中。
Jan, 2021
我们为越南语开源了一种最先进的 7.5B 参数生成模型系列 PhoGPT,包括基础的预训练单语模型 PhoGPT-7B5 及其指令遵循变体 PhoGPT-7B5-Instruct。此外,通过人工评估实验,我们还展示了其比以前的开源模型表现出更高的性能。
Nov, 2023
我们引入了一种基于 Transformer 的越南模型 BARTPhoBEiT,该模型包括了预训练的越南序列到序列和双向编码器表示,用于评估越南语 VQA 数据集,并在准确度、精确度、召回率、F1 得分、WUPS 0.0 和 WUPS 0.9 等六个指标上优于强基准模型和现有最先进模型。
Jul, 2023
本文介绍了一个高质量、大规模的越南语 - 英语平行数据集,进行了机器翻译的比较实验,结果表明在预训练序列到序列去噪自编码器 mBART 上的微调获得了最好的性能,这是第一个大规模的越南语 - 英语机器翻译研究,希望这个公开的数据集和研究能成为未来越南语 - 英语机器翻译研究和应用的起点。
Oct, 2021
本研究介绍了 XPhoneBERT,这是第一个多语种模型,经过预训练学习用于下游文本转语音任务的音素表示。我们使用 RoBERTa 预训练方法对近 100 种语言和地区的 330M 个音素级句子进行了训练。实验结果表明,将 XPhoneBERT 用作输入音素编码器,可以显著提高强神经 TTS 模型的自然度和韵律性,并且有助于在有限的训练数据下产生高质量的语音。我们公开发布了预训练的 XPhoneBERT,希望能促进未来多语言下游 TTS 应用研究。
May, 2023
本研究利用先进的预处理技术和多种实验验证,提出一种基于 PhoBERT 和 Text-CNN 模型的 HSD 模型来检测越南社交媒体上的仇恨言论,在应对数据不平衡的同时提高了分类模型的性能,通过实验结果验证,该模型在 ViHSD 和 HSD-VLSP 等数据集上获得了更高的 F1 得分,并且进一步构建了一种实用的流媒体应用程序以演示其实用性。
Jun, 2022
本文介绍了使用多语言 BERT 嵌入和一些新的神经模型,提高越南语序列标记任务的研究。我们提出了新的模型架构,在 VLSP 2016 和 VLSP 2018 两个命名实体识别数据集和 VLSP 2010 和 VLSP 2013 两个词性标记数据集上进行了广泛评估。我们的方法优于现有方法,并实现了新的最先进结果。
Jun, 2020