利用情感知识提高跨领域仇恨言论的泛化能力

ACLNov, 2023

利用情感知识提高跨领域仇恨言论的泛化能力

Improving Cross-Domain Hate Speech Generalizability with Emotion Knowledge

Shi Yin Hong, Susan Gauch

TL;DR一项关于仇恨言论检测的研究，提出了一种基于情绪知识的多任务架构的方法，通过跨领域设置来改善仇恨言论检测的泛化能力，实验证明其在交叉领域评估中具有稳定的泛化改进和平均交叉领域性能提升。

Abstract

Reliable automatic hate speech (HS) detection systems must adapt to the in-flow of diverse new data to curtail hate speech. However, hate speech detection systems commonly lack generalizability in identifying hate speech dissimilar to data used in training, impeding their robustness in

hate speech detection generalizability emotion knowledge cross-domain evaluation f1 measure

发现论文，激发创造

跨领域迁移的大规模仇恨言论检测

本文研究 hate speech detection 模型的性能，构建了涵盖五个领域的大规模推文数据集，并利用变换器等算法，获得了至少 5%（英文）和 10%（土耳其语）的性能提升，在不同培训规模下具有强大的可扩展性和跨领域转移能力。

Mar, 2022

高度泛化的跨语言仇恨言论检测模型

该研究旨在使用多语言数据集进行多语言仇恨言论检测和分类，并通过评估方法和语言无关的嵌入技术提高分类性能。

Jan, 2022

因果引导的跨平台仇恨言论检测中的解缠

社交媒体平台上存在有害内容的传播问题，目前的深度学习和自然语言处理模型在检测这些有害内容时过于依赖特定领域术语，影响了它们在泛化仇恨言论检测方面的能力。我们的研究提出了一种跨平台仇恨言论检测模型，可以在一个平台的数据上进行训练，并推广到多个未知平台。通过将输入表示分解为不变特征和依赖平台的特征，学习因果关系，我们能够获得对分布转换具有鲁棒性的特征用于预测泛化的仇恨言论。我们在四个平台上进行了大量实验，结果显示我们的模型在检测泛化仇恨言论方面比现有的最先进方法具有更好的效果。

Aug, 2023

社交媒体中的强韧仇恨言论检测：跨数据集实证评估

针对在线仇恨言论的自动检测是 NLP 领域的一个研究热点。本文通过对不同的仇恨言论检测数据集进行微调，分析了数据集通用性的差异，并证明了数据集的组合能够促进强大的仇恨言论检测模型的发展。

Jul, 2023

使用基于知识的概括去除对仇恨言论检测任务的刻板偏见

针对社交媒体平台上不断增加的仇恨言论传播案例，本文提出了一种基于知识的泛化学习方法，旨在从无结构的文本数据中去除偏差和刻板化的词语，以实现偏差性言论的检测和控制。实验结果表明，与基于传统偏差去除方法的分类器相比，使用本文所提出的方法获得了更好的性能和偏差缓解效果。

Jan, 2020

基于情感感知共享编码器的仇恨言论和攻击性语言检测

通过多任务联合学习中的情感特征提取方法，本文使用 Bert 和 mBert 模型提升了社交媒体平台上有害内容的探测，实现了数据高效率和更好的分类效果。

Feb, 2023

仇恨言论检测的生成式人工智能的评估和发现

使用深度神经模型自动检测仇恨言论受到标记数据稀缺性的影响，从而导致泛化能力差。为了缓解这个问题，利用生成式人工智能从现有标记示例中生成大量合成仇恨言论序列，并将生成的数据应用于微调大型预训练语言模型，如 BERT、RoBERTa 和 ALBERT。我们研究了相关方法、实验设置和这种方法的评估。此外，我们使用已经适应仇恨检测的预训练语言模型（包括 RoBERTa-Toxicity、HateBERT、HateXplain、ToxDect 和 ToxiGen）在训练集上对生成的数据进行扩充，然后应用和评估其影响。经验证实，这种方法改进了对仇恨言论的泛化能力，提高了不同数据分布下的召回性能。此外，我们还使用 GPT-3.5 模型探索和比较微调后的预训练语言模型在零样本仇恨检测方面的性能。结果表明，尽管 GPT-3.5 模型的泛化效果更好，但对大多数数据集而言，其召回率中等且精确度低。目前尚不清楚是否可以使用类似的文本生成技术来改善 GPT-3.5 及后续模型的敏感性。

Nov, 2023

PEACE：基于因果推理的跨平台仇恨言论检测框架

本文提出了一种基于原因的 hate speech detection 框架 PEACE，能够从文本中识别整体情感和攻击等固有因果线索，从而帮助实现不同平台上的泛化。

Jun, 2023

用生成的大量仇恨言论微调仇恨检测器

运用预训练语言模型生成大量的合成仇恨言论序列来缓解数据瓶颈并提高通用性，并发现使用相关标记的仇恨言论序列优于使用域外，有时也优于域内的人工标注示例。

Sep, 2021

只需要 "爱": 回避仇恨言论检测

该研究在对七种针对仇恨言论检测的最先进模型进行分析后，得出了基于数据类型和标注标准重要性大于模型架构的结论，并证明了字符级特征可以有效抵御自动插入错别字等对抗攻击。

Aug, 2018