评估自然语言推理在标注数据有限的语言下对仇恨言论检测的有效性

ACLJun, 2023

评估自然语言推理在标注数据有限的语言下对仇恨言论检测的有效性

Evaluating the Effectiveness of Natural Language Inference for Hate Speech Detection in Languages with Limited Labeled Data

PDF

Janis Goldzycher, Moritz Preisig, Chantal Amrhein, Gerold Schneider

TL;DR本研究探讨了自然语言推理（NLI）模型对于在仅有少量标记数据的情况下，提高仇恨言论检测性能的可行性，并提出了一组针对存在极少标记训练数据的语言的仇恨言论检测推荐方法。

Abstract

Most research on hate speech detection has focused on English where a sizeable amount of labeled training data is available. However, to expand hate speech detection into more →

hate speech detection natural language inference models labeled training data minimal training data languages

发现论文，激发创造

零样本仇恨言论检测假设工程

本文通过使用自然语言推理模型进行零 - shot 文本分类并结合多种策略以改进英语零 - shot 仇恨言论检测，取得了 79.4% 的检测准确度并比商业系统和基于 BERT 的模型效果更好。

Oct, 2022

利用弱标注数据在混合代码 Hinglish 中进行仇恨言论检测：基于可行性驱动的迁移学习方法与大型语言模型

采用大语言模型（LLMs）进行很少标记的训练，结合零样本学习和少样本学习等方法，成功应用于 Hinglish 中的仇恨言论检测和粗细粒度的厌女症分类，研究表明使用 Bidirectional Auto-Regressive Transformers（BART）大模型的零样本分类和使用 Generative Pre-trained Transformer- 3（ChatGPT-3）的少样本提示获得了最佳结果。

Mar, 2024

扩展仅有少量资源的语言中仇恨言论检测的数据高效策略

本文旨在研究如何在少资源语言情况下进行有效的仇恨言论检测，发现只需少量目标语言数据即可获得良好性能，并初步发现在英语数据的支持下，fine-tuning 可在一定程度上替代目标语数据并提高模型泛化性能。

Oct, 2022

多语言仇恨言论检测的深度学习模型

本研究从 16 个数据来源的 9 种语言中进行大规模的多语言仇恨言论分析，发现在低资源设置下，使用 LASER 嵌入和逻辑回归的简单模型性能最佳，在高资源设置下，BERT 模型表现更好。对于零样本分类，意大利语和葡萄牙语取得了良好的效果。我们提出的框架可用作低资源语言的高效解决方案，并可作为未来多语言仇恨言论检测任务的良好基准。我们已公开了我们的代码和实验设置供其他研究人员使用。

Apr, 2020

HateCheckHIn：对印地语仇恨言论检测模型的评估

针对社交媒体中存在的多语言仇恨言论，本文提出了一种针对多语言仇恨言论模型的功能集，被用于对现有模型的诊断分析。通过以印地语为基础语言，构建了 HateCheckHIn 评估数据集，测试了最先进的基于 Transformer 的 m-BERT 模型以及 Perspective API。

Apr, 2022

多语言辅助任务训练：缩小语言之间的差距，实现仇恨言论检测模型的零 - shot 迁移

本文研究了零 - shot 语言跨域转移学习在对抗言检测等任务中所面临的挑战，并提出使用多语种辅助任务（情感分析、命名实体识别和依靠语法信息的任务）进行训练，以提高模型的零 - shot 转移到不同语言的能力，最终实现跨语言之间的言语和文化差异的缩小。

Oct, 2022

高度泛化的跨语言仇恨言论检测模型

该研究旨在使用多语言数据集进行多语言仇恨言论检测和分类，并通过评估方法和语言无关的嵌入技术提高分类性能。

Jan, 2022

有限数据环境中使用合成数据生成进行仇恨言论检测

使用合成数据生成方法来解决有限数据情境下在线仇恨言论检测中数据不足的问题，提供了三种方法以在目标语言中生成保留原有仇恨情绪但转移仇恨目标的仇恨言论数据样本，并在印地语和越南语中生成训练数据以进行仇恨言论分类任务，表明在有限数据情境中，使用合成数据训练的模型表现与仅使用目标领域样本训练的模型相媲美甚至更好，可用于从零开始构建仇恨言论检测模型，以进一步提升我们对仇恨言论的检测、理解和响应能力。

Oct, 2023

仇恨言论检测的生成式人工智能的评估和发现

使用深度神经模型自动检测仇恨言论受到标记数据稀缺性的影响，从而导致泛化能力差。为了缓解这个问题，利用生成式人工智能从现有标记示例中生成大量合成仇恨言论序列，并将生成的数据应用于微调大型预训练语言模型，如 BERT、RoBERTa 和 ALBERT。我们研究了相关方法、实验设置和这种方法的评估。此外，我们使用已经适应仇恨检测的预训练语言模型（包括 RoBERTa-Toxicity、HateBERT、HateXplain、ToxDect 和 ToxiGen）在训练集上对生成的数据进行扩充，然后应用和评估其影响。经验证实，这种方法改进了对仇恨言论的泛化能力，提高了不同数据分布下的召回性能。此外，我们还使用 GPT-3.5 模型探索和比较微调后的预训练语言模型在零样本仇恨检测方面的性能。结果表明，尽管 GPT-3.5 模型的泛化效果更好，但对大多数数据集而言，其召回率中等且精确度低。目前尚不清楚是否可以使用类似的文本生成技术来改善 GPT-3.5 及后续模型的敏感性。

Nov, 2023

大型语言模型应用于实际世界仇恨言论检测的调查

使用大型语言模型和四种不同的提示策略，发现大型语言模型能够有效地检测恶意言论并超过当前基准机器学习模型的性能，提示策略在高效利用大型语言模型的知识库方面起到关键作用。

Jan, 2024