ACLJun, 2024

Tox-BART:利用毒性属性生成隐含仇恨言论的解释

TL;DR利用语言模型为隐藏的仇恨帖子生成解释是一个活跃的研究领域,解释的目的是明确潜在的刻板印象并帮助内容管理员。研究通常结合前 k 个相关的知识图谱 (KG) 元组来提供世界知识并改善标准指标的性能,但我们的研究提出了冲突的证据,认为 KG 元组的质量在生成隐含解释方面的作用不明确。因此,将外部毒性信号纳入的简化模型优于 KG 融合模型。在 SBIC(LatentHatred)数据集上,我们观察到相当的性能表现,BLEU、ROUGE-L 和 BERTScore 的性能变化分别为 + 0.44 (+0.49)、+1.83 (-1.56) 和 - 4.59 (+0.77)。进一步的人工评估和错误分析表明,我们提出的设置比零样本 GPT-3.5 产生了更精确的解释,突显了任务的复杂性。