Jul, 2023

Vacaspati: 孟加拉文学的多样语料库

TL;DR建立了包含超过 11 百万句子和 1.15 亿个词语的 Bangla 语料库 Vacaspati,并使用该语料库训练了 FastText 和 Electra 模型,这些模型在各种下游任务中表现良好,其中 Vac-BERT 的性能优于其他最先进的 Transformer 模型,而 Vac-FT 则优于其他基于 FastText 的模型。