HateTinyLLM：使用微型大型语言模型进行仇恨言论检测

Apr, 2024

HateTinyLLM：使用微型大型语言模型进行仇恨言论检测

HateTinyLLM : Hate Speech Detection Using Tiny Large Language Models

Tanmay Sen, Ansuman Das, Mrinmay Sen

TL;DR本研究介绍了一种名为 HateTinyLLM 的基于精调的解码器型微型大型语言模型（tinyLLM）的新框架，用于高效检测仇恨言论。实验证明，精调的 HateTinyLLM 在检测效果上明显优于预训练的 mixtral-7b 模型。我们尝试了多个微型 LLM，包括 PY007/TinyLlama-1.1B-step-50K-105b、Microsoft/phi-2 和 facebook/opt-1.3b，并通过 LoRA 和适配器方法进行了精调。观察结果表明，所有基于 LoRA 的精调模型的准确率都超过 80%。

Abstract

Hate speech encompasses verbal, written, or behavioral communication that targets derogatory or discriminatory language against individuals or groups based on sensitive characteristics. Automated hate speech detection plays a crucial role in curbing its propagation, especially across s

hate speech detection automated hate speech detection tiny large language models fine-tuned models lora-based fine-tuning

发现论文，激发创造

大型语言模型应用于实际世界仇恨言论检测的调查

使用大型语言模型和四种不同的提示策略，发现大型语言模型能够有效地检测恶意言论并超过当前基准机器学习模型的性能，提示策略在高效利用大型语言模型的知识库方面起到关键作用。

Jan, 2024

利用人工智能打击网络仇恨：探索大型语言模型在仇恨言论检测中的挑战和机遇

我们的研究通过综述和实证分析，揭示大型语言模型在检测恶意言论中的能力和限制，强调它们作为分类器的角色以及发现优秀的模型和他们的特点和训练方法，为理解大型语言模型在关键的恶意言论检测领域的能力做出贡献。

Mar, 2024

基于大型语言模型提取理由的可解释仇恨言论检测

为了解决社交媒体中的仇恨言论问题，本文提出使用最新的大型语言模型（LLMs）从文本中提取特征，以训练基于仇恨言论分类器，从而实现设计上的可信解释性。全面评估了多个社交媒体仇恨言论数据集，证明了 LLMs 提取的解释特征的优越性以及实现解释性后依然保持良好性能的惊人结果。

Mar, 2024

利用深度生成模型实现大规模仇恨言论检测

该研究探讨使用深度学习对 hate speech 进行自动检测，基于生成的 1 百万条数据集进行模型训练，在公共 hate speech 数据集上获得了显著的性能提升，提高了对多样的 hate speech 序列的高灵敏检测能力，为实现完全自动化的解决方案铺平了道路。

May, 2020

LLMs 和 Fine-tuning：针对仇恨言论检测的跨领域性能基准测试

比较不同的预训练和微调的大型语言模型对仇恨言论检测的影响，并强调了 LLMs 在不同领域的有效性和过拟合风险，通过评估，我们强调了需要通过更多样化的标签来掌握仇恨言论细微之处的微调模型的需求。最后，我们总结了对未来仇恨言论检测的展望，强调了跨领域的普适性和适当的基准实践。

Oct, 2023

基于模型无关元学习的多语言仇恨言论检测

本文提出了 HateMAML 框架，通过 meta-learning 技术和 self-supervision 策略在低资源语言下进行仇恨言论检测，并且达到了比现有方案更好的性能，同时兼备了跨语言迁移和领域泛化功能。

Mar, 2023

仇恨言论检测的生成式人工智能的评估和发现

使用深度神经模型自动检测仇恨言论受到标记数据稀缺性的影响，从而导致泛化能力差。为了缓解这个问题，利用生成式人工智能从现有标记示例中生成大量合成仇恨言论序列，并将生成的数据应用于微调大型预训练语言模型，如 BERT、RoBERTa 和 ALBERT。我们研究了相关方法、实验设置和这种方法的评估。此外，我们使用已经适应仇恨检测的预训练语言模型（包括 RoBERTa-Toxicity、HateBERT、HateXplain、ToxDect 和 ToxiGen）在训练集上对生成的数据进行扩充，然后应用和评估其影响。经验证实，这种方法改进了对仇恨言论的泛化能力，提高了不同数据分布下的召回性能。此外，我们还使用 GPT-3.5 模型探索和比较微调后的预训练语言模型在零样本仇恨检测方面的性能。结果表明，尽管 GPT-3.5 模型的泛化效果更好，但对大多数数据集而言，其召回率中等且精确度低。目前尚不清楚是否可以使用类似的文本生成技术来改善 GPT-3.5 及后续模型的敏感性。

Nov, 2023

利用弱标注数据在混合代码 Hinglish 中进行仇恨言论检测：基于可行性驱动的迁移学习方法与大型语言模型

采用大语言模型（LLMs）进行很少标记的训练，结合零样本学习和少样本学习等方法，成功应用于 Hinglish 中的仇恨言论检测和粗细粒度的厌女症分类，研究表明使用 Bidirectional Auto-Regressive Transformers（BART）大模型的零样本分类和使用 Generative Pre-trained Transformer- 3（ChatGPT-3）的少样本提示获得了最佳结果。

Mar, 2024

HateRephrase: 在线帖子中使用大型语言模型进行零次和少次转换减少仇恨强度

研究表明，使用大型语言模型（LLMs）在检测潜在仇恨言论并在发布前对其进行重新表述方面表现优异，进而减少其仇恨程度而不改变原始文本的语义意义。

Oct, 2023

用生成的大量仇恨言论微调仇恨检测器

运用预训练语言模型生成大量的合成仇恨言论序列来缓解数据瓶颈并提高通用性，并发现使用相关标记的仇恨言论序列优于使用域外，有时也优于域内的人工标注示例。

Sep, 2021