THOS：一个面向有针对性的仇恨和攻击性言论的基准数据集

Nov, 2023

THOS：一个面向有针对性的仇恨和攻击性言论的基准数据集

THOS: A Benchmark Dataset for Targeted Hate and Offensive Speech

Saad Almohaimeed, Saleh Almohaimeed, Ashfaq Ali Shafin, Bogdan Carbunar, Ladislau Bölöni

TL;DR社交媒体上检测有害内容的困难在于看似简单的是 / 否分类隐藏了大量的复杂性。本文介绍了 THOS 数据集，该数据集包含了 8.3k 个带有目标细粒度标注的推文，展示了使用大型语言模型训练分类器在该层级进行分类的可行性。

Abstract

detecting harmful content on social media, such as twitter, is made difficult by the fact that the seemingly simple yes/no classification

detecting harmful content social media twitter dataset fine-grained annotations

发现论文，激发创造

ETHOS：一个在线仇恨言论检测数据集

在本文中，我们提出了基于 YouTube 和 Reddit 评论的文本数据集 'EHTOS'，并介绍了用于创建该数据集的注释协议，旨在平衡数据。我们的关键假设是，即使从这样耗时的过程中获得一小部分标记数据，我们也可以保证在所检查的材料中发现仇恨言论。

Jun, 2020

重新审视仇恨言论基准：从数据筛选到系统部署

该研究旨在提出一种名为 GOTHate 的数据集，包含了多语言和多主题，并引入内源信号来增强恶意言论检测任务。作者开发出了一种多语言模型 HEN-mBERT，其通过历史、拓扑和范例等内源信号来改善语义分析。实验结果表明，该模型相较于其他模型提升了 2.5% 的整体宏 F1 值和 5% 的恶意言论 F1 值。

Jun, 2023

MetaHate: 一个用于整合仇恨言论检测努力的数据集

恶意言论是一种广泛而有害的在线话语形式，通常通过一系列诋毁性的言辞来表现，如令人厌恶的推文和诽谤帖子。本研究旨在解决这一现象，提出了一个全面的元数据集，并对现有的收集进行了详细的研究，以推动更强大和适应性更强的模型的训练，以有效对抗数字领域中恶意言论的动态和复杂性。

Jan, 2024

网络有害言论的多维度识别视角：不只是仇恨

本文介绍了一种使用多个标签注释恶意在线言论的方法，强调了注释应该是细致、准确的。作者发布了一个高质量的数据集，使用六个标签注释了超过 40,000 条有关移民的推文，在此数据集上训练模型的表现优于基准数据集。

Oct, 2022

HateCOT: 通过大型语言模型增强解释性的通用冒犯性言论检测数据集

社交媒体的普及性使得需要可靠高效地检测有害内容以限制其负面影响。本文介绍 HateCOT 数据集，该数据集包含 52000 个样本，来自多个不同来源，并使用 GPT-3.5-Turbo 和人工筛选生成解释。我们展示在 HateCOT 上对于检测有害内容的预训练模型，在三个基准数据集上，在零样本和少样本情况下，显著提升了开源语言模型的性能，尽管存在领域和任务的差异。我们进一步发现 HateCOT 使得在低资源情况下进行有效的 K-shot 微调成为可能。

Mar, 2024

利用受害者的仇恨进行越南社交媒体文本中的仇恨言论检测

社交媒体上激进内容的快速传播促使了对仇恨言论的检测任务的需求，本论文提供了一种构建用于针对性仇恨言论检测的系统的方法，并介绍了一个越南社交媒体文本的针对性仇恨言论检测数据集，并结合预训练语言模型与基于文本表征的 Bi-GRU-LSTM-CNN 模型建立了基线模型，最终提出了一种方法将该模型整合至在线流媒体系统，以在社交媒体上防止令人讨厌和冒犯性内容的实际应用。

Apr, 2024

IndoToxic2024：一份丰富人口统计数据集，用于印度尼西亚语的仇恨言论和毒性类型

印尼互联网仇恨言论和毒性分类数据集的全面介绍以及对利用 BERT 模型和 gpt-3.5-turbo 进行情感分析的结果和注意事项。

Jun, 2024

建立仇恨言论检测数据集的信息检索方法

通过信息检索领域的标准方法，采用池化和主动学习技术及任务分解和注释说明技巧，构建了一个更全面的针对 Twitter 中仇恨言论检测的基准数据集，并显示了现有检测模型在这些更广泛的仇恨形式测试中准确度的显著下降。

Jun, 2021

构建仇恨言论检测数据集的挑战

通过对针对性别少数群体的仇恨言论的具体例子，本文分析了仇恨言论检测所面临的问题，并提出了一个以数据为中心的综合框架，以跨七个广泛的维度来概括数据创建流程，同时指出实践者将从按照该框架来创建未来的仇恨言论数据集中获益。

Sep, 2023

FIRE 2020 上 HASOC 赛道概述：印欧语系中的仇恨言论与攻击内容识别

本文介绍了在社交媒体中迅速增长的仇恨言论现象以及如何使用多语言算法进行检测，其中包括 Hindi、德语和英语等三种语言，使用的数据集是通过机器学习系统对 Twitter 进行分类得到的，并使用了变压器结构 BERT 进行实验。

Aug, 2021