ACLJan, 2021

BanglaBERT: 低资源语言理解评价的语言模型预训练和基准测试 —— 以孟加拉语为例

TL;DR介绍了 BanglaBERT 模型,它是在一种 NLP 文献中被广泛使用但语料库有限的低资源语言 - 孟加拉语上进行预训练的 BERT-based NLU 模型。通过对 110 个流行的孟加拉网站进行爬取,作者们收集了 27.5 GB 的 Bangla2B+ 语料库。在多项不同的 NLU 任务中,BanglaBERT 均取得了最好的效果,同时也将这些任务纳入了首个 Bangla Language Understanding Benchmark (BLUB)。模型、数据集和排行榜已公开,为孟加拉自然语言处理的进一步发展做出了贡献。