基于潜在特征的数据划分方法改善泛化评估：仇恨言论检测案例研究

EMNLPNov, 2023

基于潜在特征的数据划分方法改善泛化评估：仇恨言论检测案例研究

Latent Feature-based Data Splits to Improve Generalisation Evaluation: A Hate Speech Detection Case Study

Maike Züfle, Verna Dankers, Ivan Titov

TL;DR通过对现有数据集的新的训练 - 测试分割，我们挑战了仅基于目标和关键词训练、评估仅考虑训练和测试数据之间的分布变化的仇恨言论模型。我们提出了两种分割变体，并使用四个预训练模型应用于两个数据集，揭示了模型在潜在空间中的盲点上的灾难性失败。进一步分析表明，数据分割的表面级属性与性能下降之间没有明确的相关性，这突显了任务的难度不总是容易人类解释的。我们推荐在模型开发中加入基于潜在特征的分割，并通过 GenBench 基准发布了两种分割方案。

Abstract

With the ever-growing presence of social media platforms comes the increased spread of harmful content and the need for robust hate speech detection systems. Such systems easily overfit to specific targets and keywords, and evaluating them without considering distribution shifts that m

social media platforms hate speech detection systems train-test splits latent space genbench benchmark

发现论文，激发创造

社交媒体中的强韧仇恨言论检测：跨数据集实证评估

针对在线仇恨言论的自动检测是 NLP 领域的一个研究热点。本文通过对不同的仇恨言论检测数据集进行微调，分析了数据集通用性的差异，并证明了数据集的组合能够促进强大的仇恨言论检测模型的发展。

Jul, 2023

社交媒体仇恨言论检测的迁移学习

本文介绍了一种机器学习和自然语言处理模型，通过自动识别网页文本中的仇恨言论以及利用迁移学习技术构建了一个识别仇恨言论的表示方法，并开发了一个可视化工具用于多个数据集的简要分析。

Jun, 2019

HateCheck：仇恨言论检测模型的功能测试

介绍 HateCheck，一个用于针对仇恨言论检测模型的功能测试套件，其中包括 29 个模型功能，为每个功能编写测试用例，并通过结构化注释过程验证其质量。测试表明，近最先进的变换器模型以及两个流行的商业模型存在关键的模型弱点。

Dec, 2020

仇恨言论检测中的角度评分统计分析

本文研究了如何使用高级特征来避免数据偏差，并统计分析了不同仇恨言论数据集的角度得分，最终证明了在其他仇恨言论数据集上测试时，过采样角度得分可以显著提高泛化性能。

Jun, 2021

DeepHate: 多维文本表示的仇恨言论检测

提出一种新颖的深度学习模型 ——DeepHate，以使用多方面的文本表示方法（如词嵌入、情感和主题信息），自动检测在线社交平台上的仇恨言论。在三个公开可用的实际数据集上进行了广泛的实验和评估，结果表明 DeepHate 在检测仇恨言论的任务上优于现有技术水平，并进行了案例研究，以提供有助于检测在线社交平台上的仇恨言论的显着功能的见解。

Mar, 2021

基于特征提取的仇恨言论识别模型

本文介绍了 TU Berlin 小组在 2021 年印欧语言仇恨言论与攻击性内容检测共享任务的 1A 和 1B 子任务中采用的不同自然语言处理模型，包括基于循环神经网络的单词和字符级别模型以及基于 Bert 的转移学习方法，并评估了不同模型在比赛中的表现。结果表明，基于转移学习的模型在两个子任务中均取得了最佳结果。

Jan, 2022

高度泛化的跨语言仇恨言论检测模型

该研究旨在使用多语言数据集进行多语言仇恨言论检测和分类，并通过评估方法和语言无关的嵌入技术提高分类性能。

Jan, 2022

只需要 "爱": 回避仇恨言论检测

该研究在对七种针对仇恨言论检测的最先进模型进行分析后，得出了基于数据类型和标注标准重要性大于模型架构的结论，并证明了字符级特征可以有效抵御自动插入错别字等对抗攻击。

Aug, 2018

构建仇恨言论检测数据集的挑战

通过对针对性别少数群体的仇恨言论的具体例子，本文分析了仇恨言论检测所面临的问题，并提出了一个以数据为中心的综合框架，以跨七个广泛的维度来概括数据创建流程，同时指出实践者将从按照该框架来创建未来的仇恨言论数据集中获益。

Sep, 2023

使用多任务学习在未见领域检测仇恨言论：政治公众人物的案例研究

使用多任务学习模型，构建更全面的分类模型，并在新的未知数据集上进行预测，结果表明性能优于现有工作。同时，提出了一个名为 PubFigs 的新数据集，关注美国公共政治人物的问题言论，并自动检测其言论中的问题内容，并揭示了公众人物的发布行为。

Aug, 2022