在有毒语言检测标注中实现性别平等的目标

ACLJun, 2021

在有毒语言检测标注中实现性别平等的目标

Towards Equal Gender Representation in the Annotations of Toxic Language Detection

Elizabeth Excell, Noura Al Moubayed

TL;DR研究评论标注者的人口统计数据如何影响模型的公平性，探讨男性和女性对评论进行标注的差异对造成的偏见，通过预处理训练数据、使用女性标注数据培训模型，可以减少性别偏见并提高模型准确性。

Abstract

Classifiers tend to propagate biases present in the data on which they are trained. Hence, it is important to understand how the demographic identities of the annotators of comments affect the fairness of the resulting model. In this paper, we focus on the differences in the ways men and women annotate comments for →

annotators demographics toxicity gender bias bert model training data preprocessing

发现论文，激发创造

使用深度学习方法确定有毒评论和意外模型偏差最小化

使用 BERT 模型，通过对权重损失的加权处理，检测有毒评论并减少对包括种族、性别、宗教在内的身份特征的意外偏见。与传统的逻辑回归模型相比，经过微调的 BERT 模型在分类和偏见减少方面表现得更好，具有 89% 的准确率。

Nov, 2023

标注员态度：标注员信念和身份对有害语言检测的偏见

通过两项在线研究探究了评注者身份和信仰对有毒语言的评注的影响，发现评注者的身份和信仰与有毒性评分之间有很强的关联，表明对有毒语言的注释需要在社会变量中予以情境化考虑，进而提高有毒语言的注释和检测的准确性。

Nov, 2021

减少辱骂语言检测中的性别偏见

本文研究滥用语言检测模型的偏见问题，通过使用不同的滥用语言数据集和预训练词嵌入和模型架构，分析性别偏见并尝试了三种减轻偏见的方法：去偏向词嵌入、性别交换数据扩充以及使用更大的语料库进行微调。这些方法有效的降低了性别偏见 90-98%，并且可以扩展到解决其他情况下的偏见问题。

Aug, 2018

探索大型语言模型中的注释者偏见对仇恨言论检测的影响

通过分析 GPT 3.5 和 GPT 4o 在标注仇恨言论数据时存在的偏见，本研究对性别、种族、宗教和残疾等四个主要类别中高度脆弱的群体进行了偏见分析，并通过对标注数据的仔细审查，全面研究了可能导致这些偏见的潜在因素。该研究为指导研究人员和从业者充分利用大语言模型进行数据标注，从而推进这一关键领域的进展提供重要资源。

Jun, 2024

跨多元社群中有毒评论识别的主观建模（通过模仿标注者注释）

在线毒性讨论的普及和影响使内容管理至关重要。自动化系统在识别有毒评论和减少对人工管理的依赖方面起着至关重要的作用。然而，识别多样化社区的有毒评论仍然存在挑战，本研究对此进行了探讨。

Nov, 2023

多任务学习在毒性评论检测中降低模型偏差的实证分析

该论文评估了多种最先进的模型，特别关注减少模型对一些少数群体的偏见，提出了一个多任务学习模型以及一系列深度学习模型，并使用特定的指标测试这些身份群体中意料之外的模型偏见。

Sep, 2019

为多元视角设计有害内容分类

本研究调查了 17280 名互联网用户对什么构成毒性内容的期望不同，发现那些历史上处于骚扰风险中的群体更可能将 Reddit、Twitter 或 4chan 上的随机评论标记为有毒，而那些亲身经历过骚扰的人也更可能这样做。基于我们的发现，我们展示了目前的一款面向所有用户的毒性分类算法 Perspective API，如何通过个性化模型调整平均提高 86％的准确性。最终，我们强调当前的缺陷和新的设计方向，以提高毒性内容分类器的公平性和效果。

Jun, 2021

从有偏毒性标签学习的实证研究

本研究探讨不同训练策略如何利用少量人工注释标签和大量但带有偏见的合成标签（针对身份群体）来预测在线评论的毒性，并评估了这些方法的准确性和公正性。虽然最初使用所有数据进行训练并在干净数据上微调能够产生具有最高 AUC 的模型，但同时我们发现没有一种策略在所有公正度量标准上表现最佳。

Oct, 2021

如何定义有害对数据标注的影响：解释注解者如何区分令人厌恶、冒犯和有毒评论

通过研究定义 ' 伤害 ' 的方式是否影响注释结果，我们发现研究者定义 ' 令人讨厌 '、' 冒犯 ' 和' 有害 ' 这些伤害概念时，注释员并不将它们看作同义词，且伤害定义的特征和注释员的个人特点解释了他们在使用这些术语上的差异，结果表明我们不应该将这些伤害概念在内容监控研究中互换使用，研究者应根据研究目标明确选择要分析的伤害概念，并在概念与现有有害内容检测算法识别的概念不同时提供界定结果的信息，同时鼓励算法提供者确保其工具能够适应特定上下文的内容检测目标（例如征求工具用户的反馈）。

Sep, 2023

韩国在线新闻评论语料库用于毒性言论检测

本文旨在确定韩语毒性言论，提供了相关数据集，并使用 CharCNN、BiLSTM 和 BERT 三种模型进行分析和预测，结果显示 BERT 在所有任务中表现最佳。

May, 2020