使用 BERT 监测极端社交媒体上反犹太主义言论的演变

Feb, 2024

使用 BERT 监测极端社交媒体上反犹太主义言论的演变

Monitoring the evolution of antisemitic discourse on extremist social media using BERT

Raza Ul Mustafa, Nathalie Japkowicz

TL;DR通过自动化方法和无监督机器学习，从极端社交媒体中提取反犹太主义的主题和术语，以监测其情绪和演变，预防仇恨升级。

Abstract

racism and intolerance on social media contribute to a toxic online environment which may spill offline to foster hatred, and eventually lead to physical violence. That is the case with →

racism intolerance online antisemitism automated method unsupervised machine learning

发现论文，激发创造

利用语言模型发现极端社交媒体上出现的编码反犹太仇恨言论趋势

本文提出了一种检测新兴编码仇恨化术语的方法，该方法在在线反犹太人言论的背景下进行了测试，主要通过对社交媒体平台上的帖子进行抓取并计算其在整个语料库中的频率，以过滤掉语法不连贯的表达和先前遇到过的表达，最后通过对已知的反犹太术语的语义相似性进行评估，并移除与之相距过远的表达，最终返回仅含有编码化仇恨表达的新兴反犹太术语。

Jan, 2024

利用多模深度学习检测网络反犹太主义 -《颠覆犹太统治

该研究提出了首个基于多模态检测在线反犹内容的自动化方法，致力于解决在线社交媒体不断泛滥的反犹行为。该方法包括从帖子中提取图像和文本信息，识别反犹言论的类别，以及评估系统的有效性和鲁棒性等方面。

Apr, 2021

了解在线反犹太主义的数量化方法

本文提出了一个大规模、定量的研究在线反犹太主义的方法，并使用科学方法量化了反犹太梗和 retoric 在网上的扩散和加剧程度。在收集百万级别的信息之后，我们提取了语义嵌入并演示了如何使用自动化技术发现并对反犹太术语进行分类。我们的结果为理解在线反犹太主义提供了数据驱动和定量的框架。

Sep, 2018

基于 BERT 的在线社交媒体仇恨言论检测的迁移学习方法

本研究提出了一种基于 BERT 和 Transfer Learning 的新型方案，以捕获社交媒体内容中的仇恨语境，并证明该方案能有效解决标注数据不足和存在偏差的问题，使得模型性能得到提升。

Oct, 2019

社交媒体中的上下文仇恨言论词汇挖掘

通过社群检测方法和词嵌入模型，本研究发现标记数据和关键词方法在探测新兴极端组织使用的词汇时效果不佳，提出使用学到的代号词汇来识别 hate speech 的方法，通过实验得出该方法的准确度比使用关键词更高，可以被应用于自动化 hate speech 检测。

Nov, 2017

预测 Twitter 会话线程的仇恨强度

本文提出了 DRAGNET++，使用推文线程的语义和传播结构来预测推文的仇恨强度，可以识别出即使是微妙的推文也有可能引发仇恨言论，超越了所有最先进的基线。

Jun, 2022

基于 Transformer 的大型语言模型检测反犹太主义仇恨言论

我们研究了替代性的基于变压器的生成型 AI 技术，并开发了一种新的数据标注技术，证明了这些先进方法在应对仇恨言论检测中的比较有效性，强调在敏感环境中需要负责任和谨慎管理的 AI 应用。

May, 2024

反犹太主义有多毒？自动化评分反犹在线内容的潜力和局限

使用手动注释的德语数据集，这篇论文研究了 Google 和 Jigsaw 的 Perspective API 在检测反犹太主义在线内容方面的潜力和局限性，并发现它在基本水平上能够识别反犹内容为有毒，但对于隐晦形式的反犹主义和批评立场的文本显示出严重弱点，而且通过简单的文本改动，可以大幅降低 API 分数，从而相对容易绕过基于该服务的内容审查。

Oct, 2023

反犹信息？高质量注释指南和推文标注数据集指南

构建了一个进行反犹太主义言论自动检测的标注过的数据集，该数据集通过有关关键词，并给予标注人员对一个常用定义的反犹太主义进行刻意强制应用来涵盖广泛的讨论主题，并包括 1250 条符合国际大屠杀纪念联盟关于反犹太主义的定义，并且未被错误标记的推文，该数据集是针对 Twitter 在 2019 年 1 月至 2021 年 12 月期间的英文推文。

Apr, 2023

基于大型语言模型的在线仇恨言论、错误信息和普遍心理健康的拓扑数据映射研究

社交媒体上的仇恨言论和错误信息与心理健康之间存在关联，使用机器学习和大型语言模型，从 Reddit 等社区获取数据并进行分析，揭示了它们在社区中的作用及其与心理障碍和整体心理健康之间的联系。

Sep, 2023