基于 Transformer 的大型语言模型检测反犹太主义仇恨言论

May, 2024

基于 Transformer 的大型语言模型检测反犹太主义仇恨言论

Detecting Anti-Semitic Hate Speech using Transformer-based Large Language Models

Dengyi Liu, Minghao Wang, Andrew G. Catlin

TL;DR我们研究了替代性的基于变压器的生成型 AI 技术，并开发了一种新的数据标注技术，证明了这些先进方法在应对仇恨言论检测中的比较有效性，强调在敏感环境中需要负责任和谨慎管理的 AI 应用。

Abstract

Academic researchers and social media entities grappling with the identification of hate speech face significant challenges, primarily due to the vast scale of data and the dynamic nature of hate speech. Given th

hate speech data labeling technique transformer models comparative efficacy ai applications

发现论文，激发创造

仇恨言论检测的生成式人工智能的评估和发现

使用深度神经模型自动检测仇恨言论受到标记数据稀缺性的影响，从而导致泛化能力差。为了缓解这个问题，利用生成式人工智能从现有标记示例中生成大量合成仇恨言论序列，并将生成的数据应用于微调大型预训练语言模型，如 BERT、RoBERTa 和 ALBERT。我们研究了相关方法、实验设置和这种方法的评估。此外，我们使用已经适应仇恨检测的预训练语言模型（包括 RoBERTa-Toxicity、HateBERT、HateXplain、ToxDect 和 ToxiGen）在训练集上对生成的数据进行扩充，然后应用和评估其影响。经验证实，这种方法改进了对仇恨言论的泛化能力，提高了不同数据分布下的召回性能。此外，我们还使用 GPT-3.5 模型探索和比较微调后的预训练语言模型在零样本仇恨检测方面的性能。结果表明，尽管 GPT-3.5 模型的泛化效果更好，但对大多数数据集而言，其召回率中等且精确度低。目前尚不清楚是否可以使用类似的文本生成技术来改善 GPT-3.5 及后续模型的敏感性。

Nov, 2023

基于 Transformer 深度学习的多语种仇恨言论分析与检测

使用基于 Transformer 模型的算法来检测社交媒体上的仇恨言论，无论语言如意大利语、英语、德语还是孟加拉语，该模型的检测准确率较现有基准和最先进模型提高，其成功率达到了 89%（孟加拉语）、91%（英语和德语）以及 77%（意大利语）

Jan, 2024

基于 BERT 的在线社交媒体仇恨言论检测的迁移学习方法

本研究提出了一种基于 BERT 和 Transfer Learning 的新型方案，以捕获社交媒体内容中的仇恨语境，并证明该方案能有效解决标注数据不足和存在偏差的问题，使得模型性能得到提升。

Oct, 2019

探索基于 Transformer 的模型以识别英语和印度雅利安语中的仇恨言论和攻击性内容

本篇论文探索了基于 Transformer 的多种机器学习模型，用于探测英语和印度 - 雅利安语中的仇恨言论和冒犯性内容，研究团队 “超级马里奥” 采用 mBERT、XLMR-large、XLMR-base 等多种模型，我们在 Code-Mixed 数据集排名第二（宏平均 F1：0.7107）、在印地语二分类中排名第二（宏平均 F1：0.7797）、在英语四分类中排名第四（宏平均 F1：0.8006），在英语二分类中排名第十二（宏平均 F1：0.6447）。

Nov, 2021

用生成的大量仇恨言论微调仇恨检测器

运用预训练语言模型生成大量的合成仇恨言论序列来缓解数据瓶颈并提高通用性，并发现使用相关标记的仇恨言论序列优于使用域外，有时也优于域内的人工标注示例。

Sep, 2021

自然语言处理数据增强在仇恨言论检测中的综合研究：传统方法、BERT 和 LLMs

本研究探讨了数据增强方法，包括传统方法和当代实践，如大型语言模型（LLM）在仇恨言论检测中的应用。同时，我们提出了基于 BERT 的编码器模型和上下文余弦相似度过滤的优化利用，通过降低标签改变率从而提高 F1 得分表现。与传统方法相比，使用 GPT-3 增加数据量可避免过拟合，并提高嵌入空间覆盖率和分类 F1 得分。

Mar, 2024

利用人工智能打击网络仇恨：探索大型语言模型在仇恨言论检测中的挑战和机遇

我们的研究通过综述和实证分析，揭示大型语言模型在检测恶意言论中的能力和限制，强调它们作为分类器的角色以及发现优秀的模型和他们的特点和训练方法，为理解大型语言模型在关键的恶意言论检测领域的能力做出贡献。

Mar, 2024

利用多语言转换器来进行仇恨言论检测

该论文基于 Transformer 语言模型，研究了在社交媒体文本中检测和分类仇恨的问题，并将其固定为三类，同时证明了多语言训练模式的有效性和特定特征对体系结构分类表现的影响。

Jan, 2021

基于 BERT 模型的社交媒体仇恨言论检测及种族偏见缓解

通过使用预训练语言模型 BERT 进行迁移学习，本文提出了一种在推特上进行种族主义、性别主义、仇恨性或冒犯性内容检测的算法，并将对算法进行合理地裁剪降低出现倾向性的缺陷。

Aug, 2020

基于情感感知共享编码器的仇恨言论和攻击性语言检测

通过多任务联合学习中的情感特征提取方法，本文使用 Bert 和 mBert 模型提升了社交媒体平台上有害内容的探测，实现了数据高效率和更好的分类效果。

Feb, 2023