Oct, 2022

Potrika: 八个话题和五个属性的孟加拉语原始平衡报纸数据集

TL;DR该论文介绍了一种名为 Potrika 的大型单标签 Bangla 新闻文章文本数据集,包括八个区分不同类别的分类属性,为 NLP 研究提供了两个不平衡和平衡的数据集,以适应广泛的 NLP 研究,并且是目前最大、最全面的新闻分类数据集。