自然语言处理数据增强在仇恨言论检测中的综合研究：传统方法、BERT 和 LLMs

Mar, 2024

自然语言处理数据增强在仇恨言论检测中的综合研究：传统方法、BERT 和 LLMs

A Comprehensive Study on NLP Data Augmentation for Hate Speech Detection: Legacy Methods, BERT, and LLMs

Md Saroar Jahan, Mourad Oussalah, Djamila Romaissa Beddia, Jhuma kabir Mim, Nabil Arhab

TL;DR本研究探讨了数据增强方法，包括传统方法和当代实践，如大型语言模型（LLM）在仇恨言论检测中的应用。同时，我们提出了基于 BERT 的编码器模型和上下文余弦相似度过滤的优化利用，通过降低标签改变率从而提高 F1 得分表现。与传统方法相比，使用 GPT-3 增加数据量可避免过拟合，并提高嵌入空间覆盖率和分类 F1 得分。

Abstract

The surge of interest in data augmentation within the realm of nlp has been driven by the need to address challenges posed by hate speech domains, the dynamic nature of social media vocabulary, and the demands fo

data augmentation nlp lexical substitution hate speech detection bert-based encoder models

发现论文，激发创造

仇恨言论检测的生成式人工智能的评估和发现

使用深度神经模型自动检测仇恨言论受到标记数据稀缺性的影响，从而导致泛化能力差。为了缓解这个问题，利用生成式人工智能从现有标记示例中生成大量合成仇恨言论序列，并将生成的数据应用于微调大型预训练语言模型，如 BERT、RoBERTa 和 ALBERT。我们研究了相关方法、实验设置和这种方法的评估。此外，我们使用已经适应仇恨检测的预训练语言模型（包括 RoBERTa-Toxicity、HateBERT、HateXplain、ToxDect 和 ToxiGen）在训练集上对生成的数据进行扩充，然后应用和评估其影响。经验证实，这种方法改进了对仇恨言论的泛化能力，提高了不同数据分布下的召回性能。此外，我们还使用 GPT-3.5 模型探索和比较微调后的预训练语言模型在零样本仇恨检测方面的性能。结果表明，尽管 GPT-3.5 模型的泛化效果更好，但对大多数数据集而言，其召回率中等且精确度低。目前尚不清楚是否可以使用类似的文本生成技术来改善 GPT-3.5 及后续模型的敏感性。

Nov, 2023

基于 Transformer 的大型语言模型检测反犹太主义仇恨言论

我们研究了替代性的基于变压器的生成型 AI 技术，并开发了一种新的数据标注技术，证明了这些先进方法在应对仇恨言论检测中的比较有效性，强调在敏感环境中需要负责任和谨慎管理的 AI 应用。

May, 2024

大型语言模型应用于实际世界仇恨言论检测的调查

使用大型语言模型和四种不同的提示策略，发现大型语言模型能够有效地检测恶意言论并超过当前基准机器学习模型的性能，提示策略在高效利用大型语言模型的知识库方面起到关键作用。

Jan, 2024

利用 NLP 云 API 简化文本数据增强

本工程研究了文本数据增强预处理技术，使用了常见的技术，如噪声注入，词法替换和生成的近义词，如后向转换或通过句法树的转换。使用这些技术，通过增加只有五个数据放大因子，已经使得在文本极性预测标准化任务上神经网络的准确度在 4.3% 到 21.6％的范围内获得了不错的提升，而且部分标准深度神经网络架构也都进行了测试。

Dec, 2018

HateRephrase: 在线帖子中使用大型语言模型进行零次和少次转换减少仇恨强度

研究表明，使用大型语言模型（LLMs）在检测潜在仇恨言论并在发布前对其进行重新表述方面表现优异，进而减少其仇恨程度而不改变原始文本的语义意义。

Oct, 2023

有限数据环境中使用合成数据生成进行仇恨言论检测

使用合成数据生成方法来解决有限数据情境下在线仇恨言论检测中数据不足的问题，提供了三种方法以在目标语言中生成保留原有仇恨情绪但转移仇恨目标的仇恨言论数据样本，并在印地语和越南语中生成训练数据以进行仇恨言论分类任务，表明在有限数据情境中，使用合成数据训练的模型表现与仅使用目标领域样本训练的模型相媲美甚至更好，可用于从零开始构建仇恨言论检测模型，以进一步提升我们对仇恨言论的检测、理解和响应能力。

Oct, 2023

用生成的大量仇恨言论微调仇恨检测器

运用预训练语言模型生成大量的合成仇恨言论序列来缓解数据瓶颈并提高通用性，并发现使用相关标记的仇恨言论序列优于使用域外，有时也优于域内的人工标注示例。

Sep, 2021

基于 LLM 的数据增强方法提升跨语言表现

本研究探讨了利用大型语言模型进行数据增强在跨语言常识推理数据集中的潜力，通过使用包括 Dolly-v2、StableVicuna、ChatGPT 和 GPT-4 在内的大型语言模型来扩充三个数据集，确定了该方法的有效性，并比较了使用英语生成数据和将英语生成的数据翻译成目标语言。实验结果表明，使用 GPT-4 生成的合成数据进行训练的性能比其他模型优秀，ChatGPT 和 GPT-4 在大多数语言中生成的自然文本效果非常好，但在某些情况下，它们的效益会下降。

May, 2023

利用弱标注数据在混合代码 Hinglish 中进行仇恨言论检测：基于可行性驱动的迁移学习方法与大型语言模型

采用大语言模型（LLMs）进行很少标记的训练，结合零样本学习和少样本学习等方法，成功应用于 Hinglish 中的仇恨言论检测和粗细粒度的厌女症分类，研究表明使用 Bidirectional Auto-Regressive Transformers（BART）大模型的零样本分类和使用 Generative Pre-trained Transformer- 3（ChatGPT-3）的少样本提示获得了最佳结果。

Mar, 2024

基于 BERT 的在线社交媒体仇恨言论检测的迁移学习方法

本研究提出了一种基于 BERT 和 Transfer Learning 的新型方案，以捕获社交媒体内容中的仇恨语境，并证明该方案能有效解决标注数据不足和存在偏差的问题，使得模型性能得到提升。

Oct, 2019