检查 HateCheck: 行为感知学习在仇恨言论检测中的跨职能分析

Apr, 2022

检查 HateCheck: 行为感知学习在仇恨言论检测中的跨职能分析

Checking HateCheck: a cross-functional analysis of behaviour-aware learning for hate speech detection

Pedro Henrique Luz de Araujo, Benjamin Roth

TL;DR本研究探讨了行为感知学习，通过探索几个微调方案使用 HateCheck，针对几个仅包含预期输出的情况对模型进行训练和评估，提高了分类准确性并暗示其可能泛化到被忽视的功能上。

Abstract

behavioural testing -- verifying system capabilities by validating human-designed input-output pairs -- is an alternative evaluation method of natural language processing systems proposed to address the shortcomi

behavioural testing natural language processing systems performance evaluation fine-tuning schemes model training

发现论文，激发创造

HateCheck：仇恨言论检测模型的功能测试

介绍 HateCheck，一个用于针对仇恨言论检测模型的功能测试套件，其中包括 29 个模型功能，为每个功能编写测试用例，并通过结构化注释过程验证其质量。测试表明，近最先进的变换器模型以及两个流行的商业模型存在关键的模型弱点。

Dec, 2020

多语言 HateCheck：用于多语言仇恨言论检测模型的功能测试

为了解决英语功能测试在其他语言上的不足，我们介绍了多语言 HateCheck（MHC），它涵盖了 34 种功能，涵盖了 10 种语言，支持开发更有效的多语言仇恨言论检测模型。

Jun, 2022

GPT-HateCheck：LLM 能否为仇恨言论检测编写更好的功能性测试？

在线仇恨检测中存在由数据采样、标注和模型预训练导致的偏见。本研究提出了 GPT-HateCheck 框架，通过指导大型语言模型自动生成更多样化和真实的功能测试用例来解决现有数据集的限制，并以众包注释验证生成的测试用例质量，从而发现使用原始 HateCheck 数据集时可能忽视的模型弱点。

Feb, 2024

HateCheckHIn：对印地语仇恨言论检测模型的评估

针对社交媒体中存在的多语言仇恨言论，本文提出了一种针对多语言仇恨言论模型的功能集，被用于对现有模型的诊断分析。通过以印地语为基础语言，构建了 HateCheckHIn 评估数据集，测试了最先进的基于 Transformer 的 m-BERT 模型以及 Perspective API。

Apr, 2022

SGHateCheck: 检测新加坡低资源语言中仇恨言论的功能测试

为解决当前对仇恨言论的检测模型的局限性，本文介绍了一种新颖的框架 extsf {SGHateCheck}，该框架专为新加坡和东南亚地区的语言和文化背景而设计。它扩展了 HateCheck 和 MHC 的功能测试方法，利用大型语言模型进行翻译和改编成新加坡主要语言，并通过本地标注人员进行改进。 extsf {SGHateCheck} 揭示了现有模型的关键缺陷，突出了它们在敏感内容管理方面的不足。本研究旨在促进开发针对不同语言环境的更有效的仇恨言论检测工具，特别是针对新加坡和东南亚的背景。

May, 2024

基于潜在特征的数据划分方法改善泛化评估：仇恨言论检测案例研究

通过对现有数据集的新的训练 - 测试分割，我们挑战了仅基于目标和关键词训练、评估仅考虑训练和测试数据之间的分布变化的仇恨言论模型。我们提出了两种分割变体，并使用四个预训练模型应用于两个数据集，揭示了模型在潜在空间中的盲点上的灾难性失败。进一步分析表明，数据分割的表面级属性与性能下降之间没有明确的相关性，这突显了任务的难度不总是容易人类解释的。我们推荐在模型开发中加入基于潜在特征的分割，并通过 GenBench 基准发布了两种分割方案。

Nov, 2023

PEACE：基于因果推理的跨平台仇恨言论检测框架

本文提出了一种基于原因的 hate speech detection 框架 PEACE，能够从文本中识别整体情感和攻击等固有因果线索，从而帮助实现不同平台上的泛化。

Jun, 2023

构建仇恨言论检测数据集的挑战

通过对针对性别少数群体的仇恨言论的具体例子，本文分析了仇恨言论检测所面临的问题，并提出了一个以数据为中心的综合框架，以跨七个广泛的维度来概括数据创建流程，同时指出实践者将从按照该框架来创建未来的仇恨言论数据集中获益。

Sep, 2023

只需要 "爱": 回避仇恨言论检测

该研究在对七种针对仇恨言论检测的最先进模型进行分析后，得出了基于数据类型和标注标准重要性大于模型架构的结论，并证明了字符级特征可以有效抵御自动插入错别字等对抗攻击。

Aug, 2018

社交媒体仇恨言论检测的迁移学习

本文介绍了一种机器学习和自然语言处理模型，通过自动识别网页文本中的仇恨言论以及利用迁移学习技术构建了一个识别仇恨言论的表示方法，并开发了一个可视化工具用于多个数据集的简要分析。

Jun, 2019