面向多标签分类的韩国在线仇恨言论数据集：社会科学如何改进仇恨言论数据集？

Apr, 2022

面向多标签分类的韩国在线仇恨言论数据集：社会科学如何改进仇恨言论数据集？

Korean Online Hate Speech Dataset for Multilabel Classification: How Can Social Science Improve Dataset on Hate Speech?

TaeYoung Kang, Eunrang Kwon, Junbum Lee, Youngeun Nam, Junmo Song...

TL;DR我们提供了一个多标签的韩国在线仇恨言论数据集，考虑了文化和语言背景，建议了从社会科学角度构建更具多元文化背景的仇恨言论数据集的方法。基于 2.4 万的数据集测试模型，经过结合 1.1 万个额外数据，模型的 LRAP 准确率从 0.892 提高至 0.919。

Abstract

We suggest a multilabel korean online hate speech dataset that covers seven categories of hate speech: (1) Race and Nationality, (2) Religion, (3) Regionalism, (4) Ageism, (5) Misogyny, (6) Sexual Minorities, and

korean online hate speech multilabel dataset cultural context social science

发现论文，激发创造

K-MHaS：韩国在线新闻评论中的多标签仇恨言论检测数据集

介绍了适用于韩语模式的多标记数据集 K-MHaS，基于六种不同的指标使用韩语 BERT 模型进行评估，其中具有子字符令牌化器的 KR-BERT 优于其他模型。

Aug, 2022

LAHM：用于多领域和多语言仇恨言论识别的大型注释数据集

本文介绍一种新的多语言仇恨言论分析数据集，涵盖了英语、印地语、阿拉伯语、法语、德语和西班牙语等六种语言，针对辱骂、种族主义、性别歧视、宗教仇视和极端主义等五大领域进行多角度分类，采用多任务学习方法对数据进行测试，以期提高仇恨言论检测和分类的准确性。

Apr, 2023

IndoToxic2024：一份丰富人口统计数据集，用于印度尼西亚语的仇恨言论和毒性类型

印尼互联网仇恨言论和毒性分类数据集的全面介绍以及对利用 BERT 模型和 gpt-3.5-turbo 进行情感分析的结果和注意事项。

Jun, 2024

网络有害言论的多维度识别视角：不只是仇恨

本文介绍了一种使用多个标签注释恶意在线言论的方法，强调了注释应该是细致、准确的。作者发布了一个高质量的数据集，使用六个标签注释了超过 40,000 条有关移民的推文，在此数据集上训练模型的表现优于基准数据集。

Oct, 2022

孟加拉语仇恨言论检测：数据集及其基准评估

本文针对社交媒体上孟加拉语仇恨言论检测的挑战，通过众包标注和专家验证构建了一个包含 30,000 条用户评论的数据集，并利用多个深度学习模型对其进行了实验。结果表明将 SVM 用于该数据集能够获得 87.5% 的准确率，该数据集将推动孟加拉语仇恨言论检测领域的未来研究机会。

Dec, 2020

用于分类现实世界在线服务中的有偏见言论的大规模韩文文本数据集

我们引入了一个来自韩国著名 SNS 平台的全面、大规模数据集，该数据集提供了对文本样本的三种注释：（1）偏好，（2）亵渎，和（3）九种偏见类型，实现了用户生成文本的多任务学习的同时分类。通过利用最先进的基于 BERT 的语言模型，我们的方法在各种度量标准下超越了人类水平的准确性。除了学术贡献，我们的工作可以为实际的仇恨言论和偏见减轻提供实际解决方案，直接有助于提升在线社区的健康。我们的工作为未来旨在提高在线话语质量和促进社会福祉的研究奠定了坚实的基础。所有源代码和数据集都可以在此 https 链接上公开访问。

Oct, 2023

CReHate：英文仇恨言论数据集的跨文化重新标注

通过对不同国家的个体如何感知仇恨言论的深入研究，我们引入了一个跨文化重新标注的采样 SBIC 数据集（CReHate）。该数据集包含来自五个不同国家的注释：澳大利亚、新加坡、南非、英国和美国。我们的深入统计分析突出了基于国籍的显著差异，而只有 59.4% 的样本在所有国家中达成了共识。我们还通过迁移学习引入了一种文化敏感的仇恨言论分类器，善于捕捉不同国籍的观点。这些发现强调了需要重新评估自然语言处理研究的某些方面，特别是对英语言中仇恨言论微妙性的关注。

Aug, 2023

高度泛化的跨语言仇恨言论检测模型

该研究旨在使用多语言数据集进行多语言仇恨言论检测和分类，并通过评估方法和语言无关的嵌入技术提高分类性能。

Jan, 2022

构建仇恨言论检测数据集的挑战

通过对针对性别少数群体的仇恨言论的具体例子，本文分析了仇恨言论检测所面临的问题，并提出了一个以数据为中心的综合框架，以跨七个广泛的维度来概括数据创建流程，同时指出实践者将从按照该框架来创建未来的仇恨言论数据集中获益。

Sep, 2023

多语种和多方面仇恨言论分析

本论文介绍了一种新的多语言多方面仇恨言论分析数据集，并使用它测试当前最先进的多语言多任务学习方法，通过在各种分类环境下评估我们的数据集，我们讨论了如何利用我们的注释以改进仇恨言论的检测和分类。

Aug, 2019