Mar, 2024

HateCOT: 通过大型语言模型增强解释性的通用冒犯性言论检测数据集

TL;DR社交媒体的普及性使得需要可靠高效地检测有害内容以限制其负面影响。本文介绍 HateCOT 数据集,该数据集包含 52000 个样本,来自多个不同来源,并使用 GPT-3.5-Turbo 和人工筛选生成解释。我们展示在 HateCOT 上对于检测有害内容的预训练模型,在三个基准数据集上,在零样本和少样本情况下,显著提升了开源语言模型的性能,尽管存在领域和任务的差异。我们进一步发现 HateCOT 使得在低资源情况下进行有效的 K-shot 微调成为可能。