深入兔子洞：探测网络极端主义、激进化和政治化仇恨言论

Jan, 2023

深入兔子洞：探测网络极端主义、激进化和政治化仇恨言论

Down the Rabbit Hole: Detecting Online Extremism, Radicalisation, and Politicised Hate Speech

Jarod Govers, Philip Feldman, Aaron Dant, Panos Patros

TL;DR研究 ERH 上下文挖掘的特殊领域，汇总了 51 项相关研究，着重于自然语言处理、社区检测和视觉文本模型，提出了推荐给研究人员、政府和行业的实施路线图，旨在建立更安全的网络空间。

Abstract

social media is a modern person's digital voice to project and engage with new ideas and mobilise communities $\unicode{x2013}$ a power shared with extremists. Given the societal risks of unvetted content-moderating algorithms for →

social media erh context mining extremism radicalisation hate speech

发现论文，激发创造

利用情境维度在社交媒体上建模伊斯兰极端主义交流：宗教、意识形态和仇恨

该研究通过基于语境维度的计算方法及相关知识资源，对推特上的极端主义内容进行了深入分析，开发出一种可靠的算法来识别和反制网络极端化。与竞争算法相比，该算法能够将误标记减少 10.2%。

Aug, 2019

使用深度学习检测在线媒体中的激进文本

采用深度学习算法检测网络极端化，与现有基于机器学习算法的工作相反，论文提出了一种 LSTM 基于前馈神经网络的方法。通过收集来自各种在线资源的记录并由领域专家进行注释，成功将这些记录分为极端（R）、非极端（NR）和无关（I）三类，并应用于 LSTM 基于网络进行分类，取得了 85.9％的精度。

Jul, 2019

社交媒体中的上下文仇恨言论词汇挖掘

通过社群检测方法和词嵌入模型，本研究发现标记数据和关键词方法在探测新兴极端组织使用的词汇时效果不佳，提出使用学到的代号词汇来识别 hate speech 的方法，通过实验得出该方法的准确度比使用关键词更高，可以被应用于自动化 hate speech 检测。

Nov, 2017

基于图变换的定性分析，应对仇恨言论：适应内容动态变化

本文介绍了一种利用图转换网络、注意力和 BERT 等自然语言处理技术来预测社交媒体中仇恨言论的方法，并分析了该方法在检测效果上的优劣和扩展性。研究发现，关注上下文可以支持多模态的在线帖子分析，从而解决社会影响的 AI 解决方案中面临的动态变化的问题，并通过策划内容来增进心理健康。

Jan, 2023

使用上下文感知模型检测在线仇恨言论

本文提出了一个包含上下文信息的仇恨言论数据集并提出了两种模型：一个基于逻辑回归模型的模型和一个具有上下文学习组件的神经网络模型。实验表明，这两种模型在 F1 得分方面优于强基线约 3％到 4％，结合这两种模型可进一步提高 7％的 F1 得分。

Oct, 2017

探究社交媒体中针对仇恨言论的深度学习方法

本文提出利用深度学习方法，结合各种嵌入技术，在社交媒体中检测各种类型的仇恨言论，特别是在包含有限上下文信息的推文中，这是一种非常具有挑战性的任务，三个公开数据集的实验结果表明精确度和 F1 得分都有显著提高。

May, 2020

面对在线滥用语言：从道德和人权角度的调查

本文主要基于八项伦理原则，即：隐私、问责、安全、可透明、公平和非歧视、技术的人类控制、专业责任、人权的促进，回顾了基于自然语言处理（NLP）的网络滥用内容检测的研究，并提出了权利尊重的社会技术解决方案来检测和对抗线上滥用。

Dec, 2020

使用 BERT 监测极端社交媒体上反犹太主义言论的演变

通过自动化方法和无监督机器学习，从极端社交媒体中提取反犹太主义的主题和术语，以监测其情绪和演变，预防仇恨升级。

Feb, 2024

利用语言模型发现极端社交媒体上出现的编码反犹太仇恨言论趋势

本文提出了一种检测新兴编码仇恨化术语的方法，该方法在在线反犹太人言论的背景下进行了测试，主要通过对社交媒体平台上的帖子进行抓取并计算其在整个语料库中的频率，以过滤掉语法不连贯的表达和先前遇到过的表达，最后通过对已知的反犹太术语的语义相似性进行评估，并移除与之相距过远的表达，最终返回仅含有编码化仇恨表达的新兴反犹太术语。

Jan, 2024

基于 BERT 的集成方法用于仇恨言论检测

本文聚焦于利用包括 BERT 在内的多个深度模型以及集成学习等技术，对社交媒体上的仇恨言论进行分类，使用三个公开 Twitter 数据集进行实验并考察多种方法的分类性能，最终以新数据集 DHO 进行多标签分类，取得了不错的成果，尤其在集成学习方面表现良好，如在 Davidson 数据集上采用 stacking 技术得到了 97% 的 F1 得分，而在 DHO 数据集上汇聚集成学习技术得到了 77% 的 F1 得分。

Sep, 2022