May, 2022

TiBERT:藏语预训练语言模型

TL;DR本研究使用 Sentencepiece 从藏文网站收集大规模训练数据,并构建了一个词汇表,覆盖了语料库中 99.95%的单词,使用这些数据和词汇表训练了一个称为 TiBERT 的藏文单语言预训练语言模型,最后将 TiBERT 应用于文本分类和问题生成的下游任务,并且与传统模型和多语言预训练模型进行比较,实验结果表明 TiBERT 能够实现最佳性能。