SGHateCheck: 检测新加坡低资源语言中仇恨言论的功能测试

May, 2024

SGHateCheck: 检测新加坡低资源语言中仇恨言论的功能测试

SGHateCheck: Functional Tests for Detecting Hate Speech in Low-Resource Languages of Singapore

Ri Chi Ng, Nirmalendu Prakash, Ming Shan Hee, Kenny Tsu Wei Choo, Roy Ka-Wei Lee

TL;DR为解决当前对仇恨言论的检测模型的局限性，本文介绍了一种新颖的框架 extsf {SGHateCheck}，该框架专为新加坡和东南亚地区的语言和文化背景而设计。它扩展了 HateCheck 和 MHC 的功能测试方法，利用大型语言模型进行翻译和改编成新加坡主要语言，并通过本地标注人员进行改进。 extsf {SGHateCheck} 揭示了现有模型的关键缺陷，突出了它们在敏感内容管理方面的不足。本研究旨在促进开发针对不同语言环境的更有效的仇恨言论检测工具，特别是针对新加坡和东南亚的背景。

Abstract

To address the limitations of current hate speech detection models, we introduce \textsf{sghatecheck}, a novel framework designed for the linguistic and cultural context of Singapore and Southeast Asia. It extend

hate speech detection models linguistic and cultural context sghatecheck state-of-the-art models sensitive content moderation

发现论文，激发创造

多语言 HateCheck：用于多语言仇恨言论检测模型的功能测试

为了解决英语功能测试在其他语言上的不足，我们介绍了多语言 HateCheck（MHC），它涵盖了 34 种功能，涵盖了 10 种语言，支持开发更有效的多语言仇恨言论检测模型。

Jun, 2022

HateCheck：仇恨言论检测模型的功能测试

介绍 HateCheck，一个用于针对仇恨言论检测模型的功能测试套件，其中包括 29 个模型功能，为每个功能编写测试用例，并通过结构化注释过程验证其质量。测试表明，近最先进的变换器模型以及两个流行的商业模型存在关键的模型弱点。

Dec, 2020

GPT-HateCheck：LLM 能否为仇恨言论检测编写更好的功能性测试？

在线仇恨检测中存在由数据采样、标注和模型预训练导致的偏见。本研究提出了 GPT-HateCheck 框架，通过指导大型语言模型自动生成更多样化和真实的功能测试用例来解决现有数据集的限制，并以众包注释验证生成的测试用例质量，从而发现使用原始 HateCheck 数据集时可能忽视的模型弱点。

Feb, 2024

HateCheckHIn：对印地语仇恨言论检测模型的评估

针对社交媒体中存在的多语言仇恨言论，本文提出了一种针对多语言仇恨言论模型的功能集，被用于对现有模型的诊断分析。通过以印地语为基础语言，构建了 HateCheckHIn 评估数据集，测试了最先进的基于 Transformer 的 m-BERT 模型以及 Perspective API。

Apr, 2022

检查 HateCheck: 行为感知学习在仇恨言论检测中的跨职能分析

本研究探讨了行为感知学习，通过探索几个微调方案使用 HateCheck，针对几个仅包含预期输出的情况对模型进行训练和评估，提高了分类准确性并暗示其可能泛化到被忽视的功能上。

Apr, 2022

CReHate：英文仇恨言论数据集的跨文化重新标注

通过对不同国家的个体如何感知仇恨言论的深入研究，我们引入了一个跨文化重新标注的采样 SBIC 数据集（CReHate）。该数据集包含来自五个不同国家的注释：澳大利亚、新加坡、南非、英国和美国。我们的深入统计分析突出了基于国籍的显著差异，而只有 59.4% 的样本在所有国家中达成了共识。我们还通过迁移学习引入了一种文化敏感的仇恨言论分类器，善于捕捉不同国籍的观点。这些发现强调了需要重新评估自然语言处理研究的某些方面，特别是对英语言中仇恨言论微妙性的关注。

Aug, 2023

LT-EDI-2024 平台上鉴别少资源语言中反对 LGBTQ + 仇恨语言的自动化检测

本文描述了我们开发的社交媒体评论中恐同 / 恐跨基不算法的系统，该系统是 LT-EDI-2024 共享任务的一部分。我们采用了基于 transformer 的方法，为十种语言条件（英语、西班牙语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、泰米尔语、土鲁语和泰卢固语）开发了多类别分类模型。我们在领域适应期间引入了合成和有机脚本切换语言数据的实例，以反映社交媒体语言中标记训练数据中所看到的语言现实。我们系统在古吉拉特语和泰卢固语中排名第二，其他语言条件的表现有所不同。结果表明，加入脚本切换等凌语言行为元素可以提高语言检测系统的性能，尤其是在资源匮乏的语言条件下。

Jan, 2024

高度泛化的跨语言仇恨言论检测模型

该研究旨在使用多语言数据集进行多语言仇恨言论检测和分类，并通过评估方法和语言无关的嵌入技术提高分类性能。

Jan, 2022

一种简单的、与语言无关的却非常强大的基线系统，用于仇恨言论和攻击性内容的识别

通过使用基于字符 n-gram 的经典监督算法，SATLab 团队提出了一种自动识别推文中仇恨言论和冒犯性内容的系统，该系统与语言无关。在优化特征加权和分类器参数后，该系统在英语中达到了中等表现水平，在印地语和马拉地语这两种资源较少的语言中表现更好，甚至在这些语言的三项任务中的平均表现要比许多深度学习方法更好。表现表明该方法是一个有趣的参考水平，可用于评估使用更复杂方法（例如深度学习或考虑补充资源）的好处。

Feb, 2022

HateMonitors：社交媒体语言无关的滥用检测

本文介绍了我们基于梯度提升机、BERT 和 LASER 嵌入式开发的 HateMonitor 模型，在 Indo-European Languages HASOC（FIRE 2019 的任务之一）中排名第一，用于令人讨厌和令人反感的内容识别。

Sep, 2019