评估 ChatGPT 在多语言和基于表情符号的仇恨言论检测中的性能

May, 2023

评估 ChatGPT 在多语言和基于表情符号的仇恨言论检测中的性能

Evaluating ChatGPT's Performance for Multilingual and Emoji-based Hate Speech Detection

Mithun Das, Saurabh Kumar Pandey, Animesh Mukherjee

TL;DR对 ChatGPT 语言模型进行 11 种语言中的仇恨言论检测和 emoji 影响分析，揭示模型的缺陷和需要进行进一步研究和改进的必要性。

Abstract

hate speech is a severe issue that affects many online platforms. So far, several studies have been performed to develop robust hate speech detection systems. Large language models like →

hate speech chatgpt language model weaknesses emoji

发现论文，激发创造

表情符号解码：利用 ChatGPT 增强社交媒体交流的理解能力

ChatGPT 评估了其在已注释和后续任务处理方面的有效性，以验证 ChatGPT 能否在表情符号研究中作为可行的替代品，并且其解释表情符号含义的能力能增加在线沟通的清晰度和透明度。研究结果表明，ChatGPT 对表情符号有广泛的知识，并能够在不同应用场景中阐明其含义，具备取代人类注释者进行多种任务的潜力。

Jan, 2024

HateCheckHIn：对印地语仇恨言论检测模型的评估

针对社交媒体中存在的多语言仇恨言论，本文提出了一种针对多语言仇恨言论模型的功能集，被用于对现有模型的诊断分析。通过以印地语为基础语言，构建了 HateCheckHIn 评估数据集，测试了最先进的基于 Transformer 的 m-BERT 模型以及 Perspective API。

Apr, 2022

ChatGPT 在解释隐含的仇恨言论方面是否比人类标注员更优秀？ChatGPT 的潜力和限制

通过设计激励聊天 GPT 生成简明自然语言解释的提示，本文研究了是否可以使用 ChatGPT 提供内含仇恨言论检测的自然语言解释，并通过与人类编写的自然语言解释的比较来评价其质量。我们讨论了 ChatGPT 在隐含性仇恨言论研究中的潜力和局限性。

Feb, 2023

GPT 是否具备分析表情包情感的能力？

本研究旨在探索 GPT-3.5 作为大型语言模型在处理互联网迷因情感分析方面的能力，包括迷因情感分类、幽默类型确定和隐性仇恨迷因检测。评估结果表明，尽管 GPT 取得了显著进展，但仍然面临内在限制，包括对上下文的理解、隐含含义的解释和数据偏见等。该研究对 AI 在处理复杂的、依赖上下文的任务方面的适用性进行了探讨，为未来的发展提供了有价值的见解。

Nov, 2023

评估 ChatGPT 的垃圾邮件检测性能

本研究旨在评估 ChatGPT 在英文和中文电子邮件数据集上用于垃圾邮件识别的能力，并探讨训练样本大小对 ChatGPT 性能的影响。通过在上下文中学习，我们使用 ChatGPT 进行垃圾邮件检测，并将其性能与朴素贝叶斯、支持向量机 (SVM)、逻辑回归 (LR)、前馈神经网络 (DNN) 和 BERT 分类器等五种流行的基准方法进行比较。尽管在大型英文数据集中，ChatGPT 的性能明显差于深度监督学习方法，但在低资源的中文数据集上表现优异，甚至超越了 BERT。

Feb, 2024

探索大型语言模型中的注释者偏见对仇恨言论检测的影响

通过分析 GPT 3.5 和 GPT 4o 在标注仇恨言论数据时存在的偏见，本研究对性别、种族、宗教和残疾等四个主要类别中高度脆弱的群体进行了偏见分析，并通过对标注数据的仔细审查，全面研究了可能导致这些偏见的潜在因素。该研究为指导研究人员和从业者充分利用大语言模型进行数据标注，从而推进这一关键领域的进展提供重要资源。

Jun, 2024

ChatGPT 情绪识别中的偏见

本技术报告探讨了 ChatGPT 在从文本中识别情感方面的能力，这可以作为交互式聊天机器人、数据注释和心理健康分析等各种应用的基础。通过实验证明了 ChatGPT 在情感识别方面具有合理的可重复性，通过微调可以明显提高其性能。然而，性能会随不同的情感标签和数据集而异，突显了固有的不稳定性和潜在的偏差。数据集和情感标签的选择对 ChatGPT 的情感识别性能具有显著影响。本文阐明了数据集和标签选择的重要性，以及通过微调提高 ChatGPT 情感识别能力的潜力，为使用 ChatGPT 的应用程序中更好地整合情感分析奠定了基础。

Oct, 2023

仇恨言论检测的生成式人工智能的评估和发现

使用深度神经模型自动检测仇恨言论受到标记数据稀缺性的影响，从而导致泛化能力差。为了缓解这个问题，利用生成式人工智能从现有标记示例中生成大量合成仇恨言论序列，并将生成的数据应用于微调大型预训练语言模型，如 BERT、RoBERTa 和 ALBERT。我们研究了相关方法、实验设置和这种方法的评估。此外，我们使用已经适应仇恨检测的预训练语言模型（包括 RoBERTa-Toxicity、HateBERT、HateXplain、ToxDect 和 ToxiGen）在训练集上对生成的数据进行扩充，然后应用和评估其影响。经验证实，这种方法改进了对仇恨言论的泛化能力，提高了不同数据分布下的召回性能。此外，我们还使用 GPT-3.5 模型探索和比较微调后的预训练语言模型在零样本仇恨检测方面的性能。结果表明，尽管 GPT-3.5 模型的泛化效果更好，但对大多数数据集而言，其召回率中等且精确度低。目前尚不清楚是否可以使用类似的文本生成技术来改善 GPT-3.5 及后续模型的敏感性。

Nov, 2023

高度泛化的跨语言仇恨言论检测模型

该研究旨在使用多语言数据集进行多语言仇恨言论检测和分类，并通过评估方法和语言无关的嵌入技术提高分类性能。

Jan, 2022

多语言仇恨言论检测的深度学习模型

本研究从 16 个数据来源的 9 种语言中进行大规模的多语言仇恨言论分析，发现在低资源设置下，使用 LASER 嵌入和逻辑回归的简单模型性能最佳，在高资源设置下，BERT 模型表现更好。对于零样本分类，意大利语和葡萄牙语取得了良好的效果。我们提出的框架可用作低资源语言的高效解决方案，并可作为未来多语言仇恨言论检测任务的良好基准。我们已公开了我们的代码和实验设置供其他研究人员使用。

Apr, 2020