Feb, 2024
超越仇恨言论:自然语言处理在揭示贬损语言中的挑战与机遇
Beyond Hate Speech: NLP's Challenges and Opportunities in Uncovering Dehumanizing Language
Hezhao Zhang, Lasana Harris, Nafise Sadat Moosavi
TL;DR评估了 GPT-4、GPT-3.5 和 LLAMA-2 等先进的自然语言处理模型在检测贬低人性用语方面的性能表现,发现它们能够以 70% 的准确率区分贬低人性用语和更广泛的仇恨言论,但也存在偏见,并且在识别其他目标群体的明显贬低人性案例上经常失败。此外,使用最佳模型之一进行了更大规模数据集的自动注释,但发现目前这些模型未能达到此任务所需的高质量数据生成标准。