Dec, 2023

多语言有针对性攻击性言论识别与可视化

TL;DR在网络上出现各种仇恨、虐待和粗鄙的言辞。我们建立了一个名为Muted的系统,通过使用热图显示攻击性论点及其目标的强度,来识别多语种的仇恨言辞内容。Muted可以利用任何基于Transformer的仇恨分类模型及其注意机制来直接识别有害片段,无需进一步微调。此外,我们使用spaCy库来识别注意热图预测的词语的具体目标和论点。我们展示了该模型在识别现有数据集中的攻击性片段及其目标方面的性能,并在德语文本上提供了新的注释。最后,我们展示了我们提出的多语种输入的可视化工具。