高效模型用于仇恨、虐待和亵渎的检测
我们的研究通过综述和实证分析,揭示大型语言模型在检测恶意言论中的能力和限制,强调它们作为分类器的角色以及发现优秀的模型和他们的特点和训练方法,为理解大型语言模型在关键的恶意言论检测领域的能力做出贡献。
Mar, 2024
使用大型语言模型和四种不同的提示策略,发现大型语言模型能够有效地检测恶意言论并超过当前基准机器学习模型的性能,提示策略在高效利用大型语言模型的知识库方面起到关键作用。
Jan, 2024
本研究介绍了一种名为 HateTinyLLM 的基于精调的解码器型微型大型语言模型(tinyLLM)的新框架,用于高效检测仇恨言论。实验证明,精调的 HateTinyLLM 在检测效果上明显优于预训练的 mixtral-7b 模型。我们尝试了多个微型 LLM,包括 PY007/TinyLlama-1.1B-step-50K-105b、Microsoft/phi-2 和 facebook/opt-1.3b,并通过 LoRA 和适配器方法进行了精调。观察结果表明,所有基于 LoRA 的精调模型的准确率都超过 80%。
Apr, 2024
采用大语言模型(LLMs)进行很少标记的训练,结合零样本学习和少样本学习等方法,成功应用于 Hinglish 中的仇恨言论检测和粗细粒度的厌女症分类,研究表明使用 Bidirectional Auto-Regressive Transformers(BART)大模型的零样本分类和使用 Generative Pre-trained Transformer- 3(ChatGPT-3)的少样本提示获得了最佳结果。
Mar, 2024
使用深度神经模型自动检测仇恨言论受到标记数据稀缺性的影响,从而导致泛化能力差。为了缓解这个问题,利用生成式人工智能从现有标记示例中生成大量合成仇恨言论序列,并将生成的数据应用于微调大型预训练语言模型,如 BERT、RoBERTa 和 ALBERT。我们研究了相关方法、实验设置和这种方法的评估。此外,我们使用已经适应仇恨检测的预训练语言模型(包括 RoBERTa-Toxicity、HateBERT、HateXplain、ToxDect 和 ToxiGen)在训练集上对生成的数据进行扩充,然后应用和评估其影响。经验证实,这种方法改进了对仇恨言论的泛化能力,提高了不同数据分布下的召回性能。此外,我们还使用 GPT-3.5 模型探索和比较微调后的预训练语言模型在零样本仇恨检测方面的性能。结果表明,尽管 GPT-3.5 模型的泛化效果更好,但对大多数数据集而言,其召回率中等且精确度低。目前尚不清楚是否可以使用类似的文本生成技术来改善 GPT-3.5 及后续模型的敏感性。
Nov, 2023
研究表明,使用大型语言模型(LLMs)在检测潜在仇恨言论并在发布前对其进行重新表述方面表现优异,进而减少其仇恨程度而不改变原始文本的语义意义。
Oct, 2023
本文提出了 HateMAML 框架,通过 meta-learning 技术和 self-supervision 策略在低资源语言下进行仇恨言论检测,并且达到了比现有方案更好的性能,同时兼备了跨语言迁移和领域泛化功能。
Mar, 2023
本研究探讨了数据增强方法,包括传统方法和当代实践,如大型语言模型(LLM)在仇恨言论检测中的应用。同时,我们提出了基于 BERT 的编码器模型和上下文余弦相似度过滤的优化利用,通过降低标签改变率从而提高 F1 得分表现。与传统方法相比,使用 GPT-3 增加数据量可避免过拟合,并提高嵌入空间覆盖率和分类 F1 得分。
Mar, 2024
利用不同的提示变体、输入信息和在零样本设置中评估大型语言模型,研究探讨在检测讨厌或有害语言时使用解释、上下文和受害群体信息,并发现不仅将目标信息包含在流程中可以显著提高模型性能 (约 20-30%),而且将理由 / 解释加入流程会在不同数据集上相较基线进一步提升性能 (约 10-20%);此外,提供了大型语言模型无法对决策进行分类和解释的错误案例分类,这些薄弱点自动构成这些模型的越狱提示,需要研发产业规模的安全技术来增强模型对抗此类提示。
Oct, 2023