Dec, 2022

基于 Twitter BERT 的 Marathi 语攻击性语言检测方法

TL;DR本文介绍了我们在印度低资源口语马拉地语中的 Offensive Language Identification 的工作,讨论了使用 BERT 模型进行文本分类任务以识别推文是否冒犯,比较了不同 BERT 模型在 HASOC 2022 测试集上的表现,包括从其他现有 Marathi 仇恨言论语料库 HASOC 2021 和 L3Cube-MahaHate 进行的扩充等,并且当将 MahaTweetBERT 模型在结合数据集(HASOC 2021 + HASOC 2022 + MahaHate)上进行微调时,其在 HASOC 2022 测试集上取得了 98.43 的 F1 得分,这也是 HASOC 2022 / MOLD v2 测试集的新最优表现。