TiBERT:藏语预训练语言模型
本文通过构建名为 MiLMo 的多语言预训练语言模型,解决了现在公共多语言预训练语言模型在少数民族语言上表现不佳的问题,并通过构建名为 MiTC 的少数民族多语言文本分类数据集验证了 MiLMo 的有效性。最终实验结果显示,MiLMo 在少数民族多语言文本分类任务中表现最好。
Dec, 2022
本文介绍了首个用于越南社交媒体文本的单语言预训练语言模型 ViSoBERT,该模型使用 XLM-R 架构,在大规模高质量多样化的越南社交媒体文本语料库上进行预训练,并在越南社交媒体文本的情绪识别、仇恨言论检测、情感分析、垃圾评论检测和仇恨言论跨度检测等五个重要的自然语言下游任务中超越了之前最先进的模型。
Oct, 2023
介绍了 BanglaBERT 模型,它是在一种 NLP 文献中被广泛使用但语料库有限的低资源语言 - 孟加拉语上进行预训练的 BERT-based NLU 模型。通过对 110 个流行的孟加拉网站进行爬取,作者们收集了 27.5 GB 的 Bangla2B+ 语料库。在多项不同的 NLU 任务中,BanglaBERT 均取得了最好的效果,同时也将这些任务纳入了首个 Bangla Language Understanding Benchmark (BLUB)。模型、数据集和排行榜已公开,为孟加拉自然语言处理的进一步发展做出了贡献。
Jan, 2021
在泰语这种资源相对较少的语言中,我们使用 RoBERTa-base 架构对大型、去重、清理后的训练集进行预训练,并研究了不同的标记化方式对下游性能的影响,在人工注释的单语境中,我们的模型 wangchanberta-base-att-spm-uncased 在序列分类和标记分类任务中优于强基线和多语言模型。
Jan, 2021
SciBERT 是一种无监督预训练的基于 BERT 的语言模型,用于解决获取高质量、大规模标注科学数据的难题,并在多个科学领域的数据集上展示出比传统 BERT 模型更卓越的性能。
Mar, 2019
本文介绍了一种从维基百科数据中创建特定语言 BERT 模型的简单完全自动化流程,并引入 42 个新的这种模型,以往缺乏专门深度神经语言模型的语言。我们使用现有的 UDify 解析器对这些模型的优点进行评估,并发现 UDify 使用的 WikiBERT 模型在平均性能方面优于使用 mBERT 的解析器,这些特定语言模型在某些语言方面表现出显著的改进,而在其他语言方面改进有限或性能下降。我们还提供了初步结果作为了解特定语言模型最有益的条件的第一步。
Jun, 2020
本研究通过利用网络爬虫数据构建法语单语语料库,研究了训练法语单语 Transformer-based 语言模型的可行性,并在词性标注、句法分析、命名实体识别和自然语言推理等任务上取得了准确的结果。
Nov, 2019
本研究探讨了在中文主题分类任务中使用基于双向编码器的转换器 (BERT) 的有监督连续预训练,通过引入 prompt-based learning 和 contrastive learning 来提高其性能,并使用大约 2.1M 条涵盖各种主题的中文数据进行了实验。预训练的中国主题分类 BERT(TCBERTs)已在此网址开源。
Nov, 2022
本文介绍了 ViDeBERTa,一种新的越南语预训练单语言模型,使用 DeBERTa 架构在大规模高质量多样化的越南文本语料库上进行预训练,取得了在越南特定的自然语言理解任务上比前文献更好的表现,尤其在问答任务上能取得出色的结果。该模型相较于其他预训练语言模型具有更少的参数,其表现非常出色,并且现已提供供大家使用。
Jan, 2023
本研究探讨了中文预训练语言模型的有效性,并向社区发布了中文预训练语言模型系列。我们还提出了一个简单但有效的模型 MacBERT,该模型在多个方面优于 RoBERTa,特别是掩蔽策略采用了 MLM 进行修正。我们在八个中文 NLP 任务上进行了大量实验,实验结果表明 MacBERT 在许多 NLP 任务上都可以达到最先进的性能,并提供了一些研究细节的发现,这可能有助于未来的研究。
Apr, 2020