ViSoBERT:用于越南社交媒体文本处理的预训练语言模型
本文介绍了 ViDeBERTa,一种新的越南语预训练单语言模型,使用 DeBERTa 架构在大规模高质量多样化的越南文本语料库上进行预训练,取得了在越南特定的自然语言理解任务上比前文献更好的表现,尤其在问答任务上能取得出色的结果。该模型相较于其他预训练语言模型具有更少的参数,其表现非常出色,并且现已提供供大家使用。
Jan, 2023
PhoBERT 是第一个用于越南语的公开大规模单语言模型,实验结果表明,PhoBERT 在多个越南特定的自然语言处理任务中表现优异,胜过最近最好的预训练多语种模型 XLM-R,我们发布了 PhoBERT 以促进未来的越南语自然语言处理研究和下游应用。
Mar, 2020
我们引入了基于 T5 架构的 ViHateT5 模型,该模型在我们提出的大规模领域特定数据集 VOZ-HSD 上进行了预训练,通过利用文本到文本架构的优势,ViHateT5 可以使用统一的模型处理多个任务,并在越南语的所有标准 HSD 基准测试中实现最先进的性能。
May, 2024
本文介绍了使用多语言 BERT 嵌入和一些新的神经模型,提高越南语序列标记任务的研究。我们提出了新的模型架构,在 VLSP 2016 和 VLSP 2018 两个命名实体识别数据集和 VLSP 2010 和 VLSP 2013 两个词性标记数据集上进行了广泛评估。我们的方法优于现有方法,并实现了新的最先进结果。
Jun, 2020
我们引入了一种基于 Transformer 的越南模型 BARTPhoBEiT,该模型包括了预训练的越南序列到序列和双向编码器表示,用于评估越南语 VQA 数据集,并在准确度、精确度、召回率、F1 得分、WUPS 0.0 和 WUPS 0.9 等六个指标上优于强基准模型和现有最先进模型。
Jul, 2023
在泰语这种资源相对较少的语言中,我们使用 RoBERTa-base 架构对大型、去重、清理后的训练集进行预训练,并研究了不同的标记化方式对下游性能的影响,在人工注释的单语境中,我们的模型 wangchanberta-base-att-spm-uncased 在序列分类和标记分类任务中优于强基线和多语言模型。
Jan, 2021
本研究使用 Sentencepiece 从藏文网站收集大规模训练数据,并构建了一个词汇表,覆盖了语料库中 99.95%的单词,使用这些数据和词汇表训练了一个称为 TiBERT 的藏文单语言预训练语言模型,最后将 TiBERT 应用于文本分类和问题生成的下游任务,并且与传统模型和多语言预训练模型进行比较,实验结果表明 TiBERT 能够实现最佳性能。
May, 2022
本研究使用英越翻译模型将生物医学数据和基准转化为越南语,并利用大规模的越南语翻译数据训练得到了 ViPubmedT5 编解码 Transformer 模型,该模型在医学摘要和首字母缩写消歧方面取得了最先进的成果,并发布了 ViMedNLI 数据集用于 NLP 任务。
Oct, 2022
本研究利用先进的预处理技术和多种实验验证,提出一种基于 PhoBERT 和 Text-CNN 模型的 HSD 模型来检测越南社交媒体上的仇恨言论,在应对数据不平衡的同时提高了分类模型的性能,通过实验结果验证,该模型在 ViHSD 和 HSD-VLSP 等数据集上获得了更高的 F1 得分,并且进一步构建了一种实用的流媒体应用程序以演示其实用性。
Jun, 2022
本文介绍了两个版本的 BARTpho 模型:BARTpho-syllable 和 BARTpho-word,这两个模型是首个由越南语言训练的公共大规模单语序列到序列模型,使用 BART 的预训练机制,适用于生成式自然语言处理任务。在越南文本摘要等下游任务中,BARTpho 比强基线 mBART 表现更好,进一步在越南大写字母和标点符号恢复任务中表现更为有效。
Sep, 2021