EMNLPNov, 2023

人类的编辑更好:评估 LLM 生成的反事实扩充数据对有害语言检测的有效性

TL;DRNLP 模型在社交计算的各种重要任务中被使用,例如检测性别歧视、种族歧视或其他憎恨内容。因此,这些模型对于虚假特征的稳健性至关重要。过去的研究尝试使用训练数据增强来解决这些虚假特征问题,包括 Counterfactually Augmented Data (CADs)。CADs 在现有训练数据点上引入最小的更改并翻转其标签;使用它们进行训练可能减少模型对虚假特征的依赖性。然而,手动生成 CADs 可能是耗时且昂贵的。因此,在本研究中,我们评估了使用生成性 NLP 模型是否可以自动化这一任务。我们使用 Polyjuice、ChatGPT 和 Flan-T5 自动生成 CADs,并与手动生成的 CADs 进行比较,评估其提高模型稳健性的效用。通过测试模型在多个域外测试集上的性能和单个数据点的有效性,我们的结果显示,手动 CADs 仍然是最有效的,ChatGPT 生成的 CADs 排名第二。自动化方法性能较低的一个关键原因是它们引入的更改通常不足以翻转原始标签。