超越仇恨言论：自然语言处理在揭示贬损语言中的挑战与机遇

Feb, 2024

超越仇恨言论：自然语言处理在揭示贬损语言中的挑战与机遇

Beyond Hate Speech: NLP's Challenges and Opportunities in Uncovering Dehumanizing Language

Hezhao Zhang, Lasana Harris, Nafise Sadat Moosavi

TL;DR评估了 GPT-4、GPT-3.5 和 LLAMA-2 等先进的自然语言处理模型在检测贬低人性用语方面的性能表现，发现它们能够以 70% 的准确率区分贬低人性用语和更广泛的仇恨言论，但也存在偏见，并且在识别其他目标群体的明显贬低人性案例上经常失败。此外，使用最佳模型之一进行了更大规模数据集的自动注释，但发现目前这些模型未能达到此任务所需的高质量数据生成标准。

Abstract

dehumanization, characterized as a subtle yet harmful manifestation of hate speech, involves denying individuals of their human qualities and often results in violence against marginalized groups. Despite significant progress in Natural Language Processing across various domains, its a

dehumanization hate speech nlp models biases data generation

发现论文，激发创造

计算语言学分析的去人化框架

本研究根据社会心理学的研究，创建了一个计算语言分析框架来分析去人性化言论，然后将这个框架应用于分析 New York Times 自 1986 年至 2015 年关于 LGBTQ 人士的文章。总体而言，我们发现随着时间的推移，LGBTQ 人士的被人性化描述越来越多。但是，我们发现与其他标签（例如同性恋）相比，“同性恋” 这个标签更容易被视为去人性化的态度。本文所提出的技术揭示了围绕边缘化群体的语言变化和变异的过程，并且大规模分析非人性化言论的能力对于自动检测和理解媒体偏见以及虐待性言论的意义重大。

Mar, 2020

检测非人言论的数据集

本文介绍了两个包含政治言辞和电影字幕对话的数据集，分别是一个大型自动收集的语料库和一个较小的手动标注数据集，这些数据集能为我们提供广泛且多样的去人性化数据，从而实现进一步的探索性分析和自动分类的去人性化模式。同时，这两个数据集将公开发布。

Feb, 2024

解释的力量：走向自动去偏见的仇恨言论检测

本研究提出了一种自动的误用检测器，该检测器依赖于解释方法来检测潜在的偏见，并基于此构建了端到端的去偏扭框架，适用于文本分类器而无需任何外部资源。

Sep, 2022

使用自然语言处理的仇恨言论自动检测的系统综述

本文对社交媒体上仇恨言论检测和追踪的问题进行了系统综述，重点关注自然语言处理和深度学习技术，概述了该领域的文献、方法和限制，并提出未来研究方向。

May, 2021

探索大型语言模型中的注释者偏见对仇恨言论检测的影响

通过分析 GPT 3.5 和 GPT 4o 在标注仇恨言论数据时存在的偏见，本研究对性别、种族、宗教和残疾等四个主要类别中高度脆弱的群体进行了偏见分析，并通过对标注数据的仔细审查，全面研究了可能导致这些偏见的潜在因素。该研究为指导研究人员和从业者充分利用大语言模型进行数据标注，从而推进这一关键领域的进展提供重要资源。

Jun, 2024

面对在线滥用语言：从道德和人权角度的调查

本文主要基于八项伦理原则，即：隐私、问责、安全、可透明、公平和非歧视、技术的人类控制、专业责任、人权的促进，回顾了基于自然语言处理（NLP）的网络滥用内容检测的研究，并提出了权利尊重的社会技术解决方案来检测和对抗线上滥用。

Dec, 2020

面向群体的 NLP 仇恨言论检测方法

本研究提出了一种针对在线仇恨言论检测的 NLP 组特定方法，结合历史和语言知识并通过种族和伦理学等角度对模型进行评估，实验结果表明结合历史数据库可以帮助模型识别细微的刻板印象，同时该方法用于检测反犹太主义仇恨言论，成果将现有的反犹太主义研究和语言知识图谱相结合。

Apr, 2023

网络有害言论的多维度识别视角：不只是仇恨

本文介绍了一种使用多个标签注释恶意在线言论的方法，强调了注释应该是细致、准确的。作者发布了一个高质量的数据集，使用六个标签注释了超过 40,000 条有关移民的推文，在此数据集上训练模型的表现优于基准数据集。

Oct, 2022

多语境下人机交互式仇恨性言论分类

本研究介绍了一种新的人类参与的基于 BERT 的仇恨言论分类流程，该分类器在针对瑞士的多语种环境下经过训练，使用原始语料库的数据，在德语和法语中超过了当前最佳的 BERT 多语种分类器。研究表明，持续的人类参与分类器维护是确保恶意言论分类的有效性的必要条件。

Dec, 2022

HateRephrase: 在线帖子中使用大型语言模型进行零次和少次转换减少仇恨强度

研究表明，使用大型语言模型（LLMs）在检测潜在仇恨言论并在发布前对其进行重新表述方面表现优异，进而减少其仇恨程度而不改变原始文本的语义意义。

Oct, 2023