论文蒸馏:探究NLP模型中偏见对仇恨言论检测的影响
针对社交媒体平台上不断增加的仇恨言论传播案例,本文提出了一种基于知识的泛化学习方法,旨在从无结构的文本数据中去除偏差和刻板化的词语,以实现偏差性言论的检测和控制。实验结果表明,与基于传统偏差去除方法的分类器相比,使用本文所提出的方法获得了更好的性能和偏差缓解效果。
Jan, 2020
通过使用预训练语言模型BERT进行迁移学习,本文提出了一种在推特上进行种族主义、性别主义、仇恨性或冒犯性内容检测的算法,并将对算法进行合理地裁剪降低出现倾向性的缺陷。
Aug, 2020
本研究提出了一种针对在线仇恨言论检测的NLP组特定方法,结合历史和语言知识并通过种族和伦理学等角度对模型进行评估,实验结果表明结合历史数据库可以帮助模型识别细微的刻板印象,同时该方法用于检测反犹太主义仇恨言论,成果将现有的反犹太主义研究和语言知识图谱相结合。
Apr, 2023
本研究旨在测量大型语言模型中社会和经济偏见的媒体偏见,以及在预训练数据中表现出政治(社会,经济)偏见的先验模型对高风险社会导向任务的公平性的影响。结果发现先验模型确实存在政治倾向,这可能加剧原始数据中的偏见并将其传播到误导检测器之类的下游模型中,本研究讨论了这些发现对NLP研究的影响,并提出了减轻不公平的未来方向。
May, 2023
本论文探讨自然语言处理模型中的偏见源自种族主义、性别歧视和同性恋恐惧症500年以来的历史,同时指出处理偏见和不公平的唯一方法是解决首先引起它们的社会问题,并引入社会科学及社会科学家的研究成果来减轻自然语言处理模型中的偏见。
May, 2023
针对在线仇恨言论的自动检测是NLP领域的一个研究热点。本文通过对不同的仇恨言论检测数据集进行微调,分析了数据集通用性的差异,并证明了数据集的组合能够促进强大的仇恨言论检测模型的发展。
Jul, 2023
提出了一种两步骤的方法,通过一个分类器检测仇恨言论,然后利用去偏见的组件生成较少偏见或无偏见的替代方案,从而减少在线讨论中负面影响和偏见。
Jul, 2023
我们研究了语言模型中的系统性冒犯性刻板印象偏见,并提出了一种测量方法。我们验证了语言模型中的冒犯性刻板印象偏见,并研究了文献中消除该偏见的去偏方法的有效性。结果表明,所有研究的语言模型都存在冒犯性刻板印象偏见,而去偏方法对冒犯性刻板印象偏见具有负面影响。此外,结果显示冒犯性刻板印象偏见对语言模型在公平性方面具有影响。
Aug, 2023
通过分析GPT 3.5和GPT 4o在标注仇恨言论数据时存在的偏见,本研究对性别、种族、宗教和残疾等四个主要类别中高度脆弱的群体进行了偏见分析,并通过对标注数据的仔细审查,全面研究了可能导致这些偏见的潜在因素。该研究为指导研究人员和从业者充分利用大语言模型进行数据标注,从而推进这一关键领域的进展提供重要资源。
Jun, 2024
本研究解决了自然语言处理领域模型受人类偏见影响的问题,尽管近年来对此现象的研究日益增多,但相关资源仍然相对匮乏。我们的创新方法是整合公开数据集以更有效地训练仇恨言论检测和分类模型,并分析数据集中的主要问题,研究表明不同数据集的组合对模型性能产生显著影响。
Aug, 2024