Dec, 2022

基于Twitter BERT的Marathi语攻击性语言检测方法

TL;DR本文介绍了我们在印度低资源口语马拉地语中的Offensive Language Identification的工作, 讨论了使用BERT模型进行文本分类任务以识别推文是否冒犯,比较了不同BERT模型在HASOC 2022测试集上的表现,包括从其他现有Marathi仇恨言论语料库HASOC 2021和L3Cube-MahaHate进行的扩充等,并且当将MahaTweetBERT模型在结合数据集(HASOC 2021 + HASOC 2022 + MahaHate)上进行微调时,其在HASOC 2022测试集上取得了98.43的F1得分,这也是HASOC 2022 / MOLD v2测试集的新最优表现。