Mar, 2022

L3Cube-MahaHate: 基于推特的马拉提语仇恨言论检测数据集与BERT模型

TL;DR该研究介绍了L3Cube-MahaHate,这是首个主要的马拉地语恶意言论数据集,收集自Twitter上的超过25000条不同推文,并基于卷积神经网络、LSTM和Transformers构建基线分类模型,结果表明单语言模型胜于多语言模型,其中MahaBERT模型在L3Cube-MahaHate语料库上表现最佳。