评估 GPT-3 生成的针对仇恨性内容审核的说明

IJCAIMay, 2023

评估 GPT-3 生成的针对仇恨性内容审核的说明

Evaluating GPT-3 Generated Explanations for Hateful Content Moderation

Han Wang, Ming Shan Hee, Md Rabiul Awal, Kenny Tsu Wei Choo, Roy Ka-Wei Lee

TL;DR本研究通过对使用大型语言模型对仇恨言论生成解释的分析框架的提出以及对 2400 位受访者的调查，发现生成的解释在语言流畅性、信息量、说服力和逻辑准确性方面都获得了高评价，但不同提示策略会影响解释的说服力，可能会导致对内容是否仇恨的错误判断。因此，在内容审核中应谨慎使用大型语言模型 - generated 的解释。

Abstract

Recent research has focused on using large language models (LLMs) to generate explanations for hate speech through fine-tuning or

large language models hate speech fine-tuning prompting content moderation

发现论文，激发创造

探索 LLMs 用于仇恨言论检测：优势和脆弱性

利用不同的提示变体、输入信息和在零样本设置中评估大型语言模型，研究探讨在检测讨厌或有害语言时使用解释、上下文和受害群体信息，并发现不仅将目标信息包含在流程中可以显著提高模型性能 (约 20-30%)，而且将理由 / 解释加入流程会在不同数据集上相较基线进一步提升性能 (约 10-20%)；此外，提供了大型语言模型无法对决策进行分类和解释的错误案例分类，这些薄弱点自动构成这些模型的越狱提示，需要研发产业规模的安全技术来增强模型对抗此类提示。

Oct, 2023

ChatGPT 在解释隐含的仇恨言论方面是否比人类标注员更优秀？ChatGPT 的潜力和限制

通过设计激励聊天 GPT 生成简明自然语言解释的提示，本文研究了是否可以使用 ChatGPT 提供内含仇恨言论检测的自然语言解释，并通过与人类编写的自然语言解释的比较来评价其质量。我们讨论了 ChatGPT 在隐含性仇恨言论研究中的潜力和局限性。

Feb, 2023

人工智能协作生成自由文本解释的重新构架

本文探讨利用人类书写的样例以几乎无监督的方式创作自由文本解释的任务，发现高质量的提示有助于提高语言模型的生成效果，同时人类研究表明 GPT-3 生成的解释在某些情况下能够胜过人工生成的解释；作者还结合 GPT-3 与学习自评价的筛选器对生成的解释进行过滤，结果表明这一方法能够实现较高水平的解释过滤。

Dec, 2021

HateRephrase: 在线帖子中使用大型语言模型进行零次和少次转换减少仇恨强度

研究表明，使用大型语言模型（LLMs）在检测潜在仇恨言论并在发布前对其进行重新表述方面表现优异，进而减少其仇恨程度而不改变原始文本的语义意义。

Oct, 2023

仇恨言论检测的生成式人工智能的评估和发现

使用深度神经模型自动检测仇恨言论受到标记数据稀缺性的影响，从而导致泛化能力差。为了缓解这个问题，利用生成式人工智能从现有标记示例中生成大量合成仇恨言论序列，并将生成的数据应用于微调大型预训练语言模型，如 BERT、RoBERTa 和 ALBERT。我们研究了相关方法、实验设置和这种方法的评估。此外，我们使用已经适应仇恨检测的预训练语言模型（包括 RoBERTa-Toxicity、HateBERT、HateXplain、ToxDect 和 ToxiGen）在训练集上对生成的数据进行扩充，然后应用和评估其影响。经验证实，这种方法改进了对仇恨言论的泛化能力，提高了不同数据分布下的召回性能。此外，我们还使用 GPT-3.5 模型探索和比较微调后的预训练语言模型在零样本仇恨检测方面的性能。结果表明，尽管 GPT-3.5 模型的泛化效果更好，但对大多数数据集而言，其召回率中等且精确度低。目前尚不清楚是否可以使用类似的文本生成技术来改善 GPT-3.5 及后续模型的敏感性。

Nov, 2023

可解释性与仇恨言论：结构化解释提高社交媒体审核员的速度

通过研究，我们发现，结构化的解释能够降低现实世界的内容审查员的决策时间 7.4%，而通用解释对其速度没有影响且常被忽视。

Jun, 2024

大型语言模型能否自我解释？LLM 生成自解释的研究

ChatGPT 的自解释性能与传统方法相媲美，在成本较低的情况下，且具有许多有趣的特性，促使我们重新思考当前在 ChatGPT（类似的 LLM）时代的模型可解释性实践。

Oct, 2023

Chain of Explanation: 针对隐性仇恨言论生成更高质量自然语言解释的新提示方法

该研究利用先进的生成语言模型来生成关于文本含有令人厌恶的原因的自然语言解释，并使用启发式词语和目标群体提出了 “解释链” 促进方法，由于提供了准确的目标信息，我们将 NLE 生成的 BLUE 成绩从 44.0 提高到 62.3。我们最后使用各种自动评估方法和人类信息的及清晰度得分来评估生成 NLE 的质量。

Sep, 2022

GPT 是否具备分析表情包情感的能力？

本研究旨在探索 GPT-3.5 作为大型语言模型在处理互联网迷因情感分析方面的能力，包括迷因情感分类、幽默类型确定和隐性仇恨迷因检测。评估结果表明，尽管 GPT 取得了显著进展，但仍然面临内在限制，包括对上下文的理解、隐含含义的解释和数据偏见等。该研究对 AI 在处理复杂的、依赖上下文的任务方面的适用性进行了探讨，为未来的发展提供了有价值的见解。

Nov, 2023

使用模型无关的方法解释仇恨言论分类

本文研究了如何使用 BERT 模型和 LIME 算法来预测和解释仇恨言论，并提出了一种模型无关的解释方法，以支持系统的决策并防止模型偏差。

May, 2023