多语种和多方面仇恨言论分析

Aug, 2019

Multilingual and Multi-Aspect Hate Speech Analysis

Nedjma Ousidhoum, Zizheng Lin, Hongming Zhang, Yangqiu Song, Dit-Yan Yeung

TL;DR本论文介绍了一种新的多语言多方面仇恨言论分析数据集，并使用它测试当前最先进的多语言多任务学习方法，通过在各种分类环境下评估我们的数据集，我们讨论了如何利用我们的注释以改进仇恨言论的检测和分类。

Abstract

Current research on hate speech analysis is typically oriented towards monolingual and single classification tasks. In this paper, we present a new →

hate speech analysis multilingual multi-aspect multi-task learning classification

发现论文，激发创造

LAHM：用于多领域和多语言仇恨言论识别的大型注释数据集

本文介绍一种新的多语言仇恨言论分析数据集，涵盖了英语、印地语、阿拉伯语、法语、德语和西班牙语等六种语言，针对辱骂、种族主义、性别歧视、宗教仇视和极端主义等五大领域进行多角度分类，采用多任务学习方法对数据进行测试，以期提高仇恨言论检测和分类的准确性。

Apr, 2023

高度泛化的跨语言仇恨言论检测模型

该研究旨在使用多语言数据集进行多语言仇恨言论检测和分类，并通过评估方法和语言无关的嵌入技术提高分类性能。

Jan, 2022

多语言仇恨言论检测的深度学习模型

本研究从 16 个数据来源的 9 种语言中进行大规模的多语言仇恨言论分析，发现在低资源设置下，使用 LASER 嵌入和逻辑回归的简单模型性能最佳，在高资源设置下，BERT 模型表现更好。对于零样本分类，意大利语和葡萄牙语取得了良好的效果。我们提出的框架可用作低资源语言的高效解决方案，并可作为未来多语言仇恨言论检测任务的良好基准。我们已公开了我们的代码和实验设置供其他研究人员使用。

Apr, 2020

HateCheckHIn：对印地语仇恨言论检测模型的评估

针对社交媒体中存在的多语言仇恨言论，本文提出了一种针对多语言仇恨言论模型的功能集，被用于对现有模型的诊断分析。通过以印地语为基础语言，构建了 HateCheckHIn 评估数据集，测试了最先进的基于 Transformer 的 m-BERT 模型以及 Perspective API。

Apr, 2022

构建仇恨言论检测数据集的挑战

通过对针对性别少数群体的仇恨言论的具体例子，本文分析了仇恨言论检测所面临的问题，并提出了一个以数据为中心的综合框架，以跨七个广泛的维度来概括数据创建流程，同时指出实践者将从按照该框架来创建未来的仇恨言论数据集中获益。

Sep, 2023

多模式出版物中仇恨言论检测的探讨

本文研究针对文本和图像组成的多模态出版物中仇恨言论的检测问题。我们从 Twitter 收集和注释了大规模数据集 MMHS150K，并提出了不同的联合文本和视觉信息的模型用于比较仇恨言论检测中的单一模态检测，提供了定量和定性结果并分析了所提出任务的挑战。我们发现，尽管图像对于仇恨言论检测任务很有用，但目前的多模态模型无法超越仅分析文本的模型。我们讨论了原因并开放该领域和数据集以进行进一步研究。

Oct, 2019

扩展仅有少量资源的语言中仇恨言论检测的数据高效策略

本文旨在研究如何在少资源语言情况下进行有效的仇恨言论检测，发现只需少量目标语言数据即可获得良好性能，并初步发现在英语数据的支持下，fine-tuning 可在一定程度上替代目标语数据并提高模型泛化性能。

Oct, 2022

利用多语言转换器来进行仇恨言论检测

该论文基于 Transformer 语言模型，研究了在社交媒体文本中检测和分类仇恨的问题，并将其固定为三类，同时证明了多语言训练模式的有效性和特定特征对体系结构分类表现的影响。

Jan, 2021

基于 Transformer 深度学习的多语种仇恨言论分析与检测

使用基于 Transformer 模型的算法来检测社交媒体上的仇恨言论，无论语言如意大利语、英语、德语还是孟加拉语，该模型的检测准确率较现有基准和最先进模型提高，其成功率达到了 89%（孟加拉语）、91%（英语和德语）以及 77%（意大利语）

Jan, 2024

基于模型无关元学习的多语言仇恨言论检测

本文提出了 HateMAML 框架，通过 meta-learning 技术和 self-supervision 策略在低资源语言下进行仇恨言论检测，并且达到了比现有方案更好的性能，同时兼备了跨语言迁移和领域泛化功能。

Mar, 2023