利用弱标注数据在混合代码 Hinglish 中进行仇恨言论检测：基于可行性驱动的迁移学习方法与大型语言模型

Mar, 2024

利用弱标注数据在混合代码 Hinglish 中进行仇恨言论检测：基于可行性驱动的迁移学习方法与大型语言模型

Leveraging Weakly Annotated Data for Hate Speech Detection in Code-Mixed Hinglish: A Feasibility-Driven Transfer Learning Approach with Large Language Models

PDF

Sargam Yadav, Abhishek Kaushik, Kevin McDaid

TL;DR采用大语言模型（LLMs）进行很少标记的训练，结合零样本学习和少样本学习等方法，成功应用于 Hinglish 中的仇恨言论检测和粗细粒度的厌女症分类，研究表明使用 Bidirectional Auto-Regressive Transformers（BART）大模型的零样本分类和使用 Generative Pre-trained Transformer- 3（ChatGPT-3）的少样本提示获得了最佳结果。

Abstract

The advent of large language models (LLMs) has advanced the benchmark in various Natural Language Processing (NLP) tasks. However, large amounts of labelled training data are required to train LLMs. Furthermore, data annotation and training are computationally expensive and time-consum

large language models zero-shot learning hate speech detection coarse and fine-grained misogyny classification youtube comments

发现论文，激发创造

HateRephrase: 在线帖子中使用大型语言模型进行零次和少次转换减少仇恨强度

研究表明，使用大型语言模型（LLMs）在检测潜在仇恨言论并在发布前对其进行重新表述方面表现优异，进而减少其仇恨程度而不改变原始文本的语义意义。

Oct, 2023

多语言仇恨言论检测的深度学习模型

本研究从 16 个数据来源的 9 种语言中进行大规模的多语言仇恨言论分析，发现在低资源设置下，使用 LASER 嵌入和逻辑回归的简单模型性能最佳，在高资源设置下，BERT 模型表现更好。对于零样本分类，意大利语和葡萄牙语取得了良好的效果。我们提出的框架可用作低资源语言的高效解决方案，并可作为未来多语言仇恨言论检测任务的良好基准。我们已公开了我们的代码和实验设置供其他研究人员使用。

Apr, 2020

探索大型语言模型中的注释者偏见对仇恨言论检测的影响

通过分析 GPT 3.5 和 GPT 4o 在标注仇恨言论数据时存在的偏见，本研究对性别、种族、宗教和残疾等四个主要类别中高度脆弱的群体进行了偏见分析，并通过对标注数据的仔细审查，全面研究了可能导致这些偏见的潜在因素。该研究为指导研究人员和从业者充分利用大语言模型进行数据标注，从而推进这一关键领域的进展提供重要资源。

Jun, 2024

评估自然语言推理在标注数据有限的语言下对仇恨言论检测的有效性

本研究探讨了自然语言推理（NLI）模型对于在仅有少量标记数据的情况下，提高仇恨言论检测性能的可行性，并提出了一组针对存在极少标记训练数据的语言的仇恨言论检测推荐方法。

Jun, 2023

利用人工智能打击网络仇恨：探索大型语言模型在仇恨言论检测中的挑战和机遇

我们的研究通过综述和实证分析，揭示大型语言模型在检测恶意言论中的能力和限制，强调它们作为分类器的角色以及发现优秀的模型和他们的特点和训练方法，为理解大型语言模型在关键的恶意言论检测领域的能力做出贡献。

Mar, 2024

社交媒体仇恨言论检测的迁移学习

本文介绍了一种机器学习和自然语言处理模型，通过自动识别网页文本中的仇恨言论以及利用迁移学习技术构建了一个识别仇恨言论的表示方法，并开发了一个可视化工具用于多个数据集的简要分析。

Jun, 2019

零样本仇恨言论检测假设工程

本文通过使用自然语言推理模型进行零 - shot 文本分类并结合多种策略以改进英语零 - shot 仇恨言论检测，取得了 79.4% 的检测准确度并比商业系统和基于 BERT 的模型效果更好。

Oct, 2022

基于模型无关元学习的多语言仇恨言论检测

本文提出了 HateMAML 框架，通过 meta-learning 技术和 self-supervision 策略在低资源语言下进行仇恨言论检测，并且达到了比现有方案更好的性能，同时兼备了跨语言迁移和领域泛化功能。

Mar, 2023

仇恨言论检测的生成式人工智能的评估和发现

使用深度神经模型自动检测仇恨言论受到标记数据稀缺性的影响，从而导致泛化能力差。为了缓解这个问题，利用生成式人工智能从现有标记示例中生成大量合成仇恨言论序列，并将生成的数据应用于微调大型预训练语言模型，如 BERT、RoBERTa 和 ALBERT。我们研究了相关方法、实验设置和这种方法的评估。此外，我们使用已经适应仇恨检测的预训练语言模型（包括 RoBERTa-Toxicity、HateBERT、HateXplain、ToxDect 和 ToxiGen）在训练集上对生成的数据进行扩充，然后应用和评估其影响。经验证实，这种方法改进了对仇恨言论的泛化能力，提高了不同数据分布下的召回性能。此外，我们还使用 GPT-3.5 模型探索和比较微调后的预训练语言模型在零样本仇恨检测方面的性能。结果表明，尽管 GPT-3.5 模型的泛化效果更好，但对大多数数据集而言，其召回率中等且精确度低。目前尚不清楚是否可以使用类似的文本生成技术来改善 GPT-3.5 及后续模型的敏感性。

Nov, 2023

基于 BERT 的在线社交媒体仇恨言论检测的迁移学习方法

本研究提出了一种基于 BERT 和 Transfer Learning 的新型方案，以捕获社交媒体内容中的仇恨语境，并证明该方案能有效解决标注数据不足和存在偏差的问题，使得模型性能得到提升。

Oct, 2019