利用情感知识提高跨领域仇恨言论的泛化能力
本文研究 hate speech detection 模型的性能,构建了涵盖五个领域的大规模推文数据集,并利用变换器等算法,获得了至少 5%(英文)和 10%(土耳其语)的性能提升,在不同培训规模下具有强大的可扩展性和跨领域转移能力。
Mar, 2022
社交媒体平台上存在有害内容的传播问题,目前的深度学习和自然语言处理模型在检测这些有害内容时过于依赖特定领域术语,影响了它们在泛化仇恨言论检测方面的能力。我们的研究提出了一种跨平台仇恨言论检测模型,可以在一个平台的数据上进行训练,并推广到多个未知平台。通过将输入表示分解为不变特征和依赖平台的特征,学习因果关系,我们能够获得对分布转换具有鲁棒性的特征用于预测泛化的仇恨言论。我们在四个平台上进行了大量实验,结果显示我们的模型在检测泛化仇恨言论方面比现有的最先进方法具有更好的效果。
Aug, 2023
针对在线仇恨言论的自动检测是 NLP 领域的一个研究热点。本文通过对不同的仇恨言论检测数据集进行微调,分析了数据集通用性的差异,并证明了数据集的组合能够促进强大的仇恨言论检测模型的发展。
Jul, 2023
针对社交媒体平台上不断增加的仇恨言论传播案例,本文提出了一种基于知识的泛化学习方法,旨在从无结构的文本数据中去除偏差和刻板化的词语,以实现偏差性言论的检测和控制。实验结果表明,与基于传统偏差去除方法的分类器相比,使用本文所提出的方法获得了更好的性能和偏差缓解效果。
Jan, 2020
通过多任务联合学习中的情感特征提取方法,本文使用 Bert 和 mBert 模型提升了社交媒体平台上有害内容的探测,实现了数据高效率和更好的分类效果。
Feb, 2023
使用深度神经模型自动检测仇恨言论受到标记数据稀缺性的影响,从而导致泛化能力差。为了缓解这个问题,利用生成式人工智能从现有标记示例中生成大量合成仇恨言论序列,并将生成的数据应用于微调大型预训练语言模型,如 BERT、RoBERTa 和 ALBERT。我们研究了相关方法、实验设置和这种方法的评估。此外,我们使用已经适应仇恨检测的预训练语言模型(包括 RoBERTa-Toxicity、HateBERT、HateXplain、ToxDect 和 ToxiGen)在训练集上对生成的数据进行扩充,然后应用和评估其影响。经验证实,这种方法改进了对仇恨言论的泛化能力,提高了不同数据分布下的召回性能。此外,我们还使用 GPT-3.5 模型探索和比较微调后的预训练语言模型在零样本仇恨检测方面的性能。结果表明,尽管 GPT-3.5 模型的泛化效果更好,但对大多数数据集而言,其召回率中等且精确度低。目前尚不清楚是否可以使用类似的文本生成技术来改善 GPT-3.5 及后续模型的敏感性。
Nov, 2023
本文提出了一种基于原因的 hate speech detection 框架 PEACE,能够从文本中识别整体情感和攻击等固有因果线索,从而帮助实现不同平台上的泛化。
Jun, 2023
运用预训练语言模型生成大量的合成仇恨言论序列来缓解数据瓶颈并提高通用性,并发现使用相关标记的仇恨言论序列优于使用域外,有时也优于域内的人工标注示例。
Sep, 2021
该研究在对七种针对仇恨言论检测的最先进模型进行分析后,得出了基于数据类型和标注标准重要性大于模型架构的结论,并证明了字符级特征可以有效抵御自动插入错别字等对抗攻击。
Aug, 2018