针对在线仇恨言论的自动检测是 NLP 领域的一个研究热点。本文通过对不同的仇恨言论检测数据集进行微调,分析了数据集通用性的差异,并证明了数据集的组合能够促进强大的仇恨言论检测模型的发展。
Jul, 2023
本研究提出了一种针对在线仇恨言论检测的 NLP 组特定方法,结合历史和语言知识并通过种族和伦理学等角度对模型进行评估,实验结果表明结合历史数据库可以帮助模型识别细微的刻板印象,同时该方法用于检测反犹太主义仇恨言论,成果将现有的反犹太主义研究和语言知识图谱相结合。
Apr, 2023
通过信息检索领域的标准方法,采用池化和主动学习技术及任务分解和注释说明技巧,构建了一个更全面的针对 Twitter 中仇恨言论检测的基准数据集,并显示了现有检测模型在这些更广泛的仇恨形式测试中准确度的显著下降。
Jun, 2021
探讨了自动检测恶意言论的各种挑战,并提供了一个分层组织的问题列表。在数据级别、模型级别和人类级别分别区分了挑战,并对每个层次进行了详尽的分析,以帮助研究人员更有效地设计其在恶意言论检测领域中的解决方案。
Sep, 2022
本研究对深度和浅层仇恨言论检测方法进行了大规模实证比较,并以常用数据集为媒介,特别关注实际性能和实践指导,以提供指导,并确定未来的研究方向。
Feb, 2022
本文提出了一项生成式仇恨言论干预的新任务,并介绍了从 Gab 和 Reddit 收集的两个全标记的大规模仇恨言论干预数据集,该数据集提供了对话段、仇恨言论标签以及 MTurk Workers 编写的干预响应,此外,本文还分析了这些数据集以了解常见的干预策略,并探索常见的自动响应生成方法在这些新数据集上的性能以提供未来研究的基准。
Sep, 2019
该研究旨在使用多语言数据集进行多语言仇恨言论检测和分类,并通过评估方法和语言无关的嵌入技术提高分类性能。
Jan, 2022
恶意言论是一种广泛而有害的在线话语形式,通常通过一系列诋毁性的言辞来表现,如令人厌恶的推文和诽谤帖子。本研究旨在解决这一现象,提出了一个全面的元数据集,并对现有的收集进行了详细的研究,以推动更强大和适应性更强的模型的训练,以有效对抗数字领域中恶意言论的动态和复杂性。
Jan, 2024
本文提出利用深度学习方法,结合各种嵌入技术,在社交媒体中检测各种类型的仇恨言论,特别是在包含有限上下文信息的推文中,这是一种非常具有挑战性的任务,三个公开数据集的实验结果表明精确度和 F1 得分都有显著提高。
May, 2020
该研究在对七种针对仇恨言论检测的最先进模型进行分析后,得出了基于数据类型和标注标准重要性大于模型架构的结论,并证明了字符级特征可以有效抵御自动插入错别字等对抗攻击。
Aug, 2018