用生成的大量仇恨言论微调仇恨检测器

ACLSep, 2021

用生成的大量仇恨言论微调仇恨检测器

Fight Fire with Fire: Fine-tuning Hate Detectors using Large Samples of Generated Hate Speech

Tomer Wullach, Amir Adler, Einat Minkov

TL;DR运用预训练语言模型生成大量的合成仇恨言论序列来缓解数据瓶颈并提高通用性，并发现使用相关标记的仇恨言论序列优于使用域外，有时也优于域内的人工标注示例。

Abstract

automatic hate speech detection is hampered by the scarcity of labeled datasetd, leading to poor generalization. We employ pretrained language models (LMs) to alleviate this data bottleneck. We utilize the GPT LM

automatic hate speech detection pretrained language models synthetic hate speech sequences fine-tuning bert, roberta, and albert

发现论文，激发创造

仇恨言论检测的生成式人工智能的评估和发现

使用深度神经模型自动检测仇恨言论受到标记数据稀缺性的影响，从而导致泛化能力差。为了缓解这个问题，利用生成式人工智能从现有标记示例中生成大量合成仇恨言论序列，并将生成的数据应用于微调大型预训练语言模型，如 BERT、RoBERTa 和 ALBERT。我们研究了相关方法、实验设置和这种方法的评估。此外，我们使用已经适应仇恨检测的预训练语言模型（包括 RoBERTa-Toxicity、HateBERT、HateXplain、ToxDect 和 ToxiGen）在训练集上对生成的数据进行扩充，然后应用和评估其影响。经验证实，这种方法改进了对仇恨言论的泛化能力，提高了不同数据分布下的召回性能。此外，我们还使用 GPT-3.5 模型探索和比较微调后的预训练语言模型在零样本仇恨检测方面的性能。结果表明，尽管 GPT-3.5 模型的泛化效果更好，但对大多数数据集而言，其召回率中等且精确度低。目前尚不清楚是否可以使用类似的文本生成技术来改善 GPT-3.5 及后续模型的敏感性。

Nov, 2023

利用深度生成模型实现大规模仇恨言论检测

该研究探讨使用深度学习对 hate speech 进行自动检测，基于生成的 1 百万条数据集进行模型训练，在公共 hate speech 数据集上获得了显著的性能提升，提高了对多样的 hate speech 序列的高灵敏检测能力，为实现完全自动化的解决方案铺平了道路。

May, 2020

基于 Transformer 的大型语言模型检测反犹太主义仇恨言论

我们研究了替代性的基于变压器的生成型 AI 技术，并开发了一种新的数据标注技术，证明了这些先进方法在应对仇恨言论检测中的比较有效性，强调在敏感环境中需要负责任和谨慎管理的 AI 应用。

May, 2024

基于 BERT 的在线社交媒体仇恨言论检测的迁移学习方法

本研究提出了一种基于 BERT 和 Transfer Learning 的新型方案，以捕获社交媒体内容中的仇恨语境，并证明该方案能有效解决标注数据不足和存在偏差的问题，使得模型性能得到提升。

Oct, 2019

社交媒体中的强韧仇恨言论检测：跨数据集实证评估

针对在线仇恨言论的自动检测是 NLP 领域的一个研究热点。本文通过对不同的仇恨言论检测数据集进行微调，分析了数据集通用性的差异，并证明了数据集的组合能够促进强大的仇恨言论检测模型的发展。

Jul, 2023

LLMs 和 Fine-tuning：针对仇恨言论检测的跨领域性能基准测试

比较不同的预训练和微调的大型语言模型对仇恨言论检测的影响，并强调了 LLMs 在不同领域的有效性和过拟合风险，通过评估，我们强调了需要通过更多样化的标签来掌握仇恨言论细微之处的微调模型的需求。最后，我们总结了对未来仇恨言论检测的展望，强调了跨领域的普适性和适当的基准实践。

Oct, 2023

基于 BERT 模型的社交媒体仇恨言论检测及种族偏见缓解

通过使用预训练语言模型 BERT 进行迁移学习，本文提出了一种在推特上进行种族主义、性别主义、仇恨性或冒犯性内容检测的算法，并将对算法进行合理地裁剪降低出现倾向性的缺陷。

Aug, 2020

HateTinyLLM：使用微型大型语言模型进行仇恨言论检测

本研究介绍了一种名为 HateTinyLLM 的基于精调的解码器型微型大型语言模型（tinyLLM）的新框架，用于高效检测仇恨言论。实验证明，精调的 HateTinyLLM 在检测效果上明显优于预训练的 mixtral-7b 模型。我们尝试了多个微型 LLM，包括 PY007/TinyLlama-1.1B-step-50K-105b、Microsoft/phi-2 和 facebook/opt-1.3b，并通过 LoRA 和适配器方法进行了精调。观察结果表明，所有基于 LoRA 的精调模型的准确率都超过 80%。

Apr, 2024

有限数据环境中使用合成数据生成进行仇恨言论检测

使用合成数据生成方法来解决有限数据情境下在线仇恨言论检测中数据不足的问题，提供了三种方法以在目标语言中生成保留原有仇恨情绪但转移仇恨目标的仇恨言论数据样本，并在印地语和越南语中生成训练数据以进行仇恨言论分类任务，表明在有限数据情境中，使用合成数据训练的模型表现与仅使用目标领域样本训练的模型相媲美甚至更好，可用于从零开始构建仇恨言论检测模型，以进一步提升我们对仇恨言论的检测、理解和响应能力。

Oct, 2023

自然语言处理数据增强在仇恨言论检测中的综合研究：传统方法、BERT 和 LLMs

本研究探讨了数据增强方法，包括传统方法和当代实践，如大型语言模型（LLM）在仇恨言论检测中的应用。同时，我们提出了基于 BERT 的编码器模型和上下文余弦相似度过滤的优化利用，通过降低标签改变率从而提高 F1 得分表现。与传统方法相比，使用 GPT-3 增加数据量可避免过拟合，并提高嵌入空间覆盖率和分类 F1 得分。

Mar, 2024