TiBERT：藏语预训练语言模型

May, 2022

TiBERT: Tibetan Pre-trained Language Model

Yuan Sun, Sisi Liu, Junjie Deng, Xiaobing Zhao

TL;DR本研究使用 Sentencepiece 从藏文网站收集大规模训练数据，并构建了一个词汇表，覆盖了语料库中 99.95％的单词，使用这些数据和词汇表训练了一个称为 TiBERT 的藏文单语言预训练语言模型，最后将 TiBERT 应用于文本分类和问题生成的下游任务，并且与传统模型和多语言预训练模型进行比较，实验结果表明 TiBERT 能够实现最佳性能。

Abstract

The pre-trained language model is trained on large-scale unlabeled text and can achieve state-of-the-art results in many different downstream tasks. However, the current →

pre-trained language model tibetan natural language processing tibert downstream tasks

发现论文，激发创造

MiLMo：少数族裔多语言预训练语言模型

本文通过构建名为 MiLMo 的多语言预训练语言模型，解决了现在公共多语言预训练语言模型在少数民族语言上表现不佳的问题，并通过构建名为 MiTC 的少数民族多语言文本分类数据集验证了 MiLMo 的有效性。最终实验结果显示，MiLMo 在少数民族多语言文本分类任务中表现最好。

Dec, 2022

ViSoBERT：用于越南社交媒体文本处理的预训练语言模型

本文介绍了首个用于越南社交媒体文本的单语言预训练语言模型 ViSoBERT，该模型使用 XLM-R 架构，在大规模高质量多样化的越南社交媒体文本语料库上进行预训练，并在越南社交媒体文本的情绪识别、仇恨言论检测、情感分析、垃圾评论检测和仇恨言论跨度检测等五个重要的自然语言下游任务中超越了之前最先进的模型。

Oct, 2023

BanglaBERT: 低资源语言理解评价的语言模型预训练和基准测试 —— 以孟加拉语为例

介绍了 BanglaBERT 模型，它是在一种 NLP 文献中被广泛使用但语料库有限的低资源语言 - 孟加拉语上进行预训练的 BERT-based NLU 模型。通过对 110 个流行的孟加拉网站进行爬取，作者们收集了 27.5 GB 的 Bangla2B+ 语料库。在多项不同的 NLU 任务中，BanglaBERT 均取得了最好的效果，同时也将这些任务纳入了首个 Bangla Language Understanding Benchmark (BLUB)。模型、数据集和排行榜已公开，为孟加拉自然语言处理的进一步发展做出了贡献。

Jan, 2021

WangchanBERTa：基于 Transformer 的泰语语言模型的预训练

在泰语这种资源相对较少的语言中，我们使用 RoBERTa-base 架构对大型、去重、清理后的训练集进行预训练，并研究了不同的标记化方式对下游性能的影响，在人工注释的单语境中，我们的模型 wangchanberta-base-att-spm-uncased 在序列分类和标记分类任务中优于强基线和多语言模型。

Jan, 2021

SciBERT : 一个针对科技文本的预训练语言模型

SciBERT 是一种无监督预训练的基于 BERT 的语言模型，用于解决获取高质量、大规模标注科学数据的难题，并在多个科学领域的数据集上展示出比传统 BERT 模型更卓越的性能。

Mar, 2019

WikiBERT 模型：多语言深度迁移学习

本文介绍了一种从维基百科数据中创建特定语言 BERT 模型的简单完全自动化流程，并引入 42 个新的这种模型，以往缺乏专门深度神经语言模型的语言。我们使用现有的 UDify 解析器对这些模型的优点进行评估，并发现 UDify 使用的 WikiBERT 模型在平均性能方面优于使用 mBERT 的解析器，这些特定语言模型在某些语言方面表现出显著的改进，而在其他语言方面改进有限或性能下降。我们还提供了初步结果作为了解特定语言模型最有益的条件的第一步。

Jun, 2020

CamemBERT: 一种美味的法语语言模型

本研究通过利用网络爬虫数据构建法语单语语料库，研究了训练法语单语 Transformer-based 语言模型的可行性，并在词性标注、句法分析、命名实体识别和自然语言推理等任务上取得了准确的结果。

Nov, 2019

TCBERT：中文主题分类 BERT 技术报告

本研究探讨了在中文主题分类任务中使用基于双向编码器的转换器 (BERT) 的有监督连续预训练，通过引入 prompt-based learning 和 contrastive learning 来提高其性能，并使用大约 2.1M 条涵盖各种主题的中文数据进行了实验。预训练的中国主题分类 BERT（TCBERTs）已在此网址开源。

Nov, 2022

ViDeBERTa: 一种用于越南语的强大预训练语言模型

本文介绍了 ViDeBERTa，一种新的越南语预训练单语言模型，使用 DeBERTa 架构在大规模高质量多样化的越南文本语料库上进行预训练，取得了在越南特定的自然语言理解任务上比前文献更好的表现，尤其在问答任务上能取得出色的结果。该模型相较于其他预训练语言模型具有更少的参数，其表现非常出色，并且现已提供供大家使用。

Jan, 2023

重新审视中文自然语言处理预训练模型

本研究探讨了中文预训练语言模型的有效性，并向社区发布了中文预训练语言模型系列。我们还提出了一个简单但有效的模型 MacBERT，该模型在多个方面优于 RoBERTa，特别是掩蔽策略采用了 MLM 进行修正。我们在八个中文 NLP 任务上进行了大量实验，实验结果表明 MacBERT 在许多 NLP 任务上都可以达到最先进的性能，并提供了一些研究细节的发现，这可能有助于未来的研究。

Apr, 2020