LAHM：用于多领域和多语言仇恨言论识别的大型注释数据集

Apr, 2023

LAHM：用于多领域和多语言仇恨言论识别的大型注释数据集

LAHM : Large Annotated Dataset for Multi-Domain and Multilingual Hate Speech Identification

Ankit Yadav, Shubham Chandel, Sushant Chatufale, Anil Bandhakavi

TL;DR本文介绍一种新的多语言仇恨言论分析数据集，涵盖了英语、印地语、阿拉伯语、法语、德语和西班牙语等六种语言，针对辱骂、种族主义、性别歧视、宗教仇视和极端主义等五大领域进行多角度分类，采用多任务学习方法对数据进行测试，以期提高仇恨言论检测和分类的准确性。

Abstract

Current research on hate speech analysis is typically oriented towards monolingual and single classification tasks. In this paper, we present a new multilingual →

hate speech analysis multilingual dataset classification tasks annotations multitask learning

发现论文，激发创造

多语种和多方面仇恨言论分析

本论文介绍了一种新的多语言多方面仇恨言论分析数据集，并使用它测试当前最先进的多语言多任务学习方法，通过在各种分类环境下评估我们的数据集，我们讨论了如何利用我们的注释以改进仇恨言论的检测和分类。

Aug, 2019

高度泛化的跨语言仇恨言论检测模型

该研究旨在使用多语言数据集进行多语言仇恨言论检测和分类，并通过评估方法和语言无关的嵌入技术提高分类性能。

Jan, 2022

多语言仇恨言论检测的深度学习模型

本研究从 16 个数据来源的 9 种语言中进行大规模的多语言仇恨言论分析，发现在低资源设置下，使用 LASER 嵌入和逻辑回归的简单模型性能最佳，在高资源设置下，BERT 模型表现更好。对于零样本分类，意大利语和葡萄牙语取得了良好的效果。我们提出的框架可用作低资源语言的高效解决方案，并可作为未来多语言仇恨言论检测任务的良好基准。我们已公开了我们的代码和实验设置供其他研究人员使用。

Apr, 2020

面向多标签分类的韩国在线仇恨言论数据集：社会科学如何改进仇恨言论数据集？

我们提供了一个多标签的韩国在线仇恨言论数据集，考虑了文化和语言背景，建议了从社会科学角度构建更具多元文化背景的仇恨言论数据集的方法。基于 2.4 万的数据集测试模型，经过结合 1.1 万个额外数据，模型的 LRAP 准确率从 0.892 提高至 0.919。

Apr, 2022

跨领域迁移的大规模仇恨言论检测

本文研究 hate speech detection 模型的性能，构建了涵盖五个领域的大规模推文数据集，并利用变换器等算法，获得了至少 5%（英文）和 10%（土耳其语）的性能提升，在不同培训规模下具有强大的可扩展性和跨领域转移能力。

Mar, 2022

基于模型无关元学习的多语言仇恨言论检测

本文提出了 HateMAML 框架，通过 meta-learning 技术和 self-supervision 策略在低资源语言下进行仇恨言论检测，并且达到了比现有方案更好的性能，同时兼备了跨语言迁移和领域泛化功能。

Mar, 2023

CReHate：英文仇恨言论数据集的跨文化重新标注

通过对不同国家的个体如何感知仇恨言论的深入研究，我们引入了一个跨文化重新标注的采样 SBIC 数据集（CReHate）。该数据集包含来自五个不同国家的注释：澳大利亚、新加坡、南非、英国和美国。我们的深入统计分析突出了基于国籍的显著差异，而只有 59.4% 的样本在所有国家中达成了共识。我们还通过迁移学习引入了一种文化敏感的仇恨言论分类器，善于捕捉不同国籍的观点。这些发现强调了需要重新评估自然语言处理研究的某些方面，特别是对英语言中仇恨言论微妙性的关注。

Aug, 2023

扩展仅有少量资源的语言中仇恨言论检测的数据高效策略

本文旨在研究如何在少资源语言情况下进行有效的仇恨言论检测，发现只需少量目标语言数据即可获得良好性能，并初步发现在英语数据的支持下，fine-tuning 可在一定程度上替代目标语数据并提高模型泛化性能。

Oct, 2022

孟加拉语仇恨言论检测：数据集及其基准评估

本文针对社交媒体上孟加拉语仇恨言论检测的挑战，通过众包标注和专家验证构建了一个包含 30,000 条用户评论的数据集，并利用多个深度学习模型对其进行了实验。结果表明将 SVM 用于该数据集能够获得 87.5% 的准确率，该数据集将推动孟加拉语仇恨言论检测领域的未来研究机会。

Dec, 2020

K-MHaS：韩国在线新闻评论中的多标签仇恨言论检测数据集

介绍了适用于韩语模式的多标记数据集 K-MHaS，基于六种不同的指标使用韩语 BERT 模型进行评估，其中具有子字符令牌化器的 KR-BERT 优于其他模型。

Aug, 2022