高效模型用于仇恨、虐待和亵渎的检测

Feb, 2024

高效模型用于仇恨、虐待和亵渎的检测

Efficient Models for the Detection of Hate, Abuse and Profanity

Christoph Tillmann, Aashka Trivedi, Bishwaranjan Bhattacharjee

TL;DR本文简要介绍了 HAP 检测器的创建以及使用它们的各种方式，以使模型的输出变得公正、可接受，从而为大型语言模型、自然语言处理、仇恨、滥用和亵渎的检测提供了重要组成部分。

Abstract

large language models (LLMs) are the cornerstone for many Natural Language Processing (NLP) tasks like sentiment analysis, document classification, named entity recognition, question answering, summarization, etc. LLMs are often trained on data which originates from the web. This data

large language models natural language processing hate abuse and profanity llm training hap detectors

发现论文，激发创造

利用人工智能打击网络仇恨：探索大型语言模型在仇恨言论检测中的挑战和机遇

我们的研究通过综述和实证分析，揭示大型语言模型在检测恶意言论中的能力和限制，强调它们作为分类器的角色以及发现优秀的模型和他们的特点和训练方法，为理解大型语言模型在关键的恶意言论检测领域的能力做出贡献。

Mar, 2024

大型语言模型应用于实际世界仇恨言论检测的调查

使用大型语言模型和四种不同的提示策略，发现大型语言模型能够有效地检测恶意言论并超过当前基准机器学习模型的性能，提示策略在高效利用大型语言模型的知识库方面起到关键作用。

Jan, 2024

HateTinyLLM：使用微型大型语言模型进行仇恨言论检测

本研究介绍了一种名为 HateTinyLLM 的基于精调的解码器型微型大型语言模型（tinyLLM）的新框架，用于高效检测仇恨言论。实验证明，精调的 HateTinyLLM 在检测效果上明显优于预训练的 mixtral-7b 模型。我们尝试了多个微型 LLM，包括 PY007/TinyLlama-1.1B-step-50K-105b、Microsoft/phi-2 和 facebook/opt-1.3b，并通过 LoRA 和适配器方法进行了精调。观察结果表明，所有基于 LoRA 的精调模型的准确率都超过 80%。

Apr, 2024

利用弱标注数据在混合代码 Hinglish 中进行仇恨言论检测：基于可行性驱动的迁移学习方法与大型语言模型

采用大语言模型（LLMs）进行很少标记的训练，结合零样本学习和少样本学习等方法，成功应用于 Hinglish 中的仇恨言论检测和粗细粒度的厌女症分类，研究表明使用 Bidirectional Auto-Regressive Transformers（BART）大模型的零样本分类和使用 Generative Pre-trained Transformer- 3（ChatGPT-3）的少样本提示获得了最佳结果。

Mar, 2024

仇恨言论检测的生成式人工智能的评估和发现

使用深度神经模型自动检测仇恨言论受到标记数据稀缺性的影响，从而导致泛化能力差。为了缓解这个问题，利用生成式人工智能从现有标记示例中生成大量合成仇恨言论序列，并将生成的数据应用于微调大型预训练语言模型，如 BERT、RoBERTa 和 ALBERT。我们研究了相关方法、实验设置和这种方法的评估。此外，我们使用已经适应仇恨检测的预训练语言模型（包括 RoBERTa-Toxicity、HateBERT、HateXplain、ToxDect 和 ToxiGen）在训练集上对生成的数据进行扩充，然后应用和评估其影响。经验证实，这种方法改进了对仇恨言论的泛化能力，提高了不同数据分布下的召回性能。此外，我们还使用 GPT-3.5 模型探索和比较微调后的预训练语言模型在零样本仇恨检测方面的性能。结果表明，尽管 GPT-3.5 模型的泛化效果更好，但对大多数数据集而言，其召回率中等且精确度低。目前尚不清楚是否可以使用类似的文本生成技术来改善 GPT-3.5 及后续模型的敏感性。

Nov, 2023

HateRephrase: 在线帖子中使用大型语言模型进行零次和少次转换减少仇恨强度

研究表明，使用大型语言模型（LLMs）在检测潜在仇恨言论并在发布前对其进行重新表述方面表现优异，进而减少其仇恨程度而不改变原始文本的语义意义。

Oct, 2023

基于模型无关元学习的多语言仇恨言论检测

本文提出了 HateMAML 框架，通过 meta-learning 技术和 self-supervision 策略在低资源语言下进行仇恨言论检测，并且达到了比现有方案更好的性能，同时兼备了跨语言迁移和领域泛化功能。

Mar, 2023

自然语言处理数据增强在仇恨言论检测中的综合研究：传统方法、BERT 和 LLMs

本研究探讨了数据增强方法，包括传统方法和当代实践，如大型语言模型（LLM）在仇恨言论检测中的应用。同时，我们提出了基于 BERT 的编码器模型和上下文余弦相似度过滤的优化利用，通过降低标签改变率从而提高 F1 得分表现。与传统方法相比，使用 GPT-3 增加数据量可避免过拟合，并提高嵌入空间覆盖率和分类 F1 得分。

Mar, 2024

探索 LLMs 用于仇恨言论检测：优势和脆弱性

利用不同的提示变体、输入信息和在零样本设置中评估大型语言模型，研究探讨在检测讨厌或有害语言时使用解释、上下文和受害群体信息，并发现不仅将目标信息包含在流程中可以显著提高模型性能 (约 20-30%)，而且将理由 / 解释加入流程会在不同数据集上相较基线进一步提升性能 (约 10-20%)；此外，提供了大型语言模型无法对决策进行分类和解释的错误案例分类，这些薄弱点自动构成这些模型的越狱提示，需要研发产业规模的安全技术来增强模型对抗此类提示。

Oct, 2023

不要走极端：揭示 LLMs 在隐性仇恨言论检测中的过度敏感性和校准限制

大型语言模型在检测隐含仇恨言论和表达置信度方面存在敏感性和自信度失调的问题，需要谨慎优化模型以确保公平性。

Feb, 2024