Apr, 2022

IIITDWD-ShankarB@ Dravidian-CodeMixi-HASOC2021: 基于 mBERT 的南印度语言冒犯内容识别模型

TL;DR本研究采用多语言 BERT 提取特征,并在其上使用三个不同的分类器以识别社交媒体上的辱骂内容,最终在 Malayalam 数据上获得 0.70 的加权 F1 分数并排名第五,在 Tamil 数据上获得 0.573 的加权 F1 分数并排名第十一。