ACLOct, 2022

孟加拉语仇恨言论和冒犯性语言检测

TL;DR本研究针对 Bengali 等低资源语言在社交媒体上的仇恨言论进行研究,开发了一个定量数据集并建立了基线模型和一些额外的方法以更好地进行分类。在分析误分类之后,我们确认 XLM-Roberta 在单独训练 actual 或 rominized 数据集时表现最好。而在联合训练和小样本训练中,MuRIL 通过更好地解析语义表达比其他模型表现更优秀。