在有毒语言检测标注中实现性别平等的目标
使用 BERT 模型,通过对权重损失的加权处理,检测有毒评论并减少对包括种族、性别、宗教在内的身份特征的意外偏见。与传统的逻辑回归模型相比,经过微调的 BERT 模型在分类和偏见减少方面表现得更好,具有 89% 的准确率。
Nov, 2023
通过两项在线研究探究了评注者身份和信仰对有毒语言的评注的影响,发现评注者的身份和信仰与有毒性评分之间有很强的关联,表明对有毒语言的注释需要在社会变量中予以情境化考虑,进而提高有毒语言的注释和检测的准确性。
Nov, 2021
本文研究滥用语言检测模型的偏见问题,通过使用不同的滥用语言数据集和预训练词嵌入和模型架构,分析性别偏见并尝试了三种减轻 偏见的方法:去偏向词嵌入、性别交换数据扩充以及使用更大的语料库进行微调。这些方法有效的降低了性别偏见 90-98%,并且可以扩展到解决其他情况下的偏见问题。
Aug, 2018
通过分析 GPT 3.5 和 GPT 4o 在标注仇恨言论数据时存在的偏见,本研究对性别、种族、宗教和残疾等四个主要类别中高度脆弱的群体进行了偏见分析,并通过对标注数据的仔细审查,全面研究了可能导致这些偏见的潜在因素。该研究为指导研究人员和从业者充分利用大语言模型进行数据标注,从而推进这一关键领域的进展提供重要资源。
Jun, 2024
在线毒性讨论的普及和影响使内容管理至关重要。自动化系统在识别有毒评论和减少对人工管理的依赖方面起着至关重要的作用。然而,识别多样化社区的有毒评论仍然存在挑战,本研究对此进行了探讨。
Nov, 2023
该论文评估了多种最先进的模型,特别关注减少模型对一些少数群体的偏见,提出了一个多任务学习模型以及一系列深度学习模型,并使用特定的指标测试这些身份群体中意料之外的模型偏见。
Sep, 2019
本研究调查了 17280 名互联网用户对什么构成毒性内容的期望不同,发现那些历史上处于骚扰风险中的群体更可能将 Reddit、Twitter 或 4chan 上的随机评论标记为有毒,而那些亲身经历过骚扰的人也更可能这样做。基于我们的发现,我们展示了目前的一款面向所有用户的毒性分类算法 Perspective API,如何通过个性化模型调整平均提高 86%的准确性。最终,我们强调当前的缺陷和新的设计方向,以提高毒性内容分类器的公平性和效果。
Jun, 2021
本研究探讨不同训练策略如何利用少量人工注释标签和大量但带有偏见的合成标签(针对身份群体)来预测在线评论的毒性,并评估了这些方法的准确性和公正性。虽然最初使用所有数据进行训练并在干净数据上微调能够产生具有最高 AUC 的模型,但同时我们发现没有一种策略在所有公正度量标准上表现最佳。
Oct, 2021
通过研究定义 ' 伤害 ' 的方式是否影响注释结果,我们发现研究者定义 ' 令人讨厌 '、' 冒犯 ' 和' 有害 ' 这些伤害概念时,注释员并不将它们看作同义词,且伤害定义的特征和注释员的个人特点解释了他们在使用这些术语上的差异,结果表明我们不应该将这些伤害概念在内容监控研究中互换使用,研究者应根据研究目标明确选择要分析的伤害概念,并在概念与现有有害内容检测算法识别的概念不同时提供界定结果的信息,同时鼓励算法提供者确保其工具能够适应特定上下文的内容检测目标(例如征求工具用户的反馈)。
Sep, 2023
本文旨在确定韩语毒性言论,提供了相关数据集,并使用 CharCNN、BiLSTM 和 BERT 三种模型进行分析和预测,结果显示 BERT 在所有任务中表现最佳。
May, 2020