Dec, 2023

HCDIR:在线评论的端到端仇恨上下文检测与强度降低模型

TL;DR在这篇论文中,我们提出了一种新颖的端到端模型 HCDIR,用于社交媒体帖子中仇恨上下文的检测和仇恨强度的降低。我们通过微调多个预训练语言模型来检测仇恨评论,并通过集成梯度(IG)模型辩证地确定了这些仇恨词的上下文。最后,我们使用掩蔽式语言建模(MLM)模型捕捉领域特定细微之处,以降低仇恨强度。我们在多个最新数据集上进行了广泛的实验,并使用基于自动度量标准(BERTScore)和全面的人工评估来增强信度。为了提高人工评估的可靠性,我们安排了一个由 3 名具有不同专业知识的人类标注者组成的小组。