ACLOct, 2020

巴西葡语社交媒体有害语言检测:新数据集和多语言分析

TL;DR本文介绍了一种用于识别巴西葡萄牙语社交媒体上有毒言论的新的大规模数据集,使用 monolingual 的数据,BERT 模型在二元案例中可以达到 76% 的宏平均 - F1 分数,但仍需要大规模单语数据来创建更精确的模型,并强调了开发能够区分不同类别有毒言论的模型的必要性。