减少辱骂语言检测中的性别偏见

EMNLPAug, 2018

Reducing Gender Bias in Abusive Language Detection

Ji Ho Park, Jamin Shin, Pascale Fung

TL;DR本文研究滥用语言检测模型的偏见问题，通过使用不同的滥用语言数据集和预训练词嵌入和模型架构，分析性别偏见并尝试了三种减轻偏见的方法：去偏向词嵌入、性别交换数据扩充以及使用更大的语料库进行微调。这些方法有效的降低了性别偏见 90-98%，并且可以扩展到解决其他情况下的偏见问题。

Abstract

abusive language detection models tend to have a problem of being biased toward identity words of a certain group of people because of imbalanced training datasets. For example, "You are a good woman" was considered "sexist" when trained on an existing dataset. Such model bias is an ob

abusive language detection bias mitigation gender biases pre-trained word embeddings model architectures

发现论文，激发创造

识别和减少单词级语言模型中的性别偏见

本研究以性别为例，用度量方法描述了文本语料中的社会问题偏差。提出了语言模型的正则化损失项以减少性别偏差，最终在多个语料库中验证了该方法的有效性。

Apr, 2019

预训练印度语言模型的高效性别去偏见

本文针对印度语言，量化职业中的性别偏见，并通过有效的微调方法减缓其中存在的偏见，以建立更公平的系统。

Sep, 2022

偏见的诞生：一项关于英语语言模型中性别偏见演变的研究

研究发现使用 LSTM 架构训练的语言模型在表示性别时存在动态变化，并且性别信息逐渐局部化。通过监控训练动态，可以检测到女性和男性在输入嵌入中的表示不对称。去除偏见的策略如何应用需要更多深入探讨。

Jul, 2022

审视滥用语言检测中的时间偏见

在线辱骂言语的使用已成为一个日益普遍的问题，对个人和社会造成损害，其影响从心理伤害一直升级到现实暴力甚至死亡。该研究旨在调查在不同语言中的辱骂言语检测中时间偏差的性质和影响，并探索缓解方法。我们评估了不同时间段辱骂数据集上的模型性能。我们的结果表明，时间偏差对辱骂言语检测是一个重大挑战，历史数据训练的模型表现随时间显著下降。我们还从历时的角度对这些辱骂数据集进行了广泛的语言学分析，旨在探索语言演变和性能下降的原因。该研究揭示了辱骂言语检测中时间偏差的普遍问题，为了解语言演变和缓解时间偏差提供了关键的见解。

Sep, 2023

双重强化去偏见：定制化词向量以降低性别偏见

本文研究了人类生成语料库（human-generated corpora）中由来的单词嵌入（word embeddings）存在着的性别偏见问题，以及已有的性别去偏置（debiasing）方法的局限性；在此基础上，提出了一种新的技术，Double Hard Debias，该技术能够在推断并去除性别子空间之前，首先过滤掉语料库中存储的单词使用频率等无关因素。实验证明，与之前的方法相比，本文提出的技术不仅保留了预训练好的单词嵌入的分布语义（distributional semantics），而且能够更有效地降低性别偏见。

May, 2020

文本中的性别偏见：标记数据集和词库

该研究的主要贡献是，通过收集、注释和增强相关句子以促进检测英文文本中的性别偏见，公开提供已标记的数据集和详尽的词汇表，其中所包含的偏见子类型包括：通用他，通用她，明确标记性别和性别新词。同时，利用词嵌入模型进一步增强了所收集的词汇表。

Jan, 2022

利用少量数据干预减轻性别偏见的语言模型性别改造

本文提出了一种数据干预策略，通过在仅使用 10 个去偏见（干预）的训练样例上微调预训练模型，可显著降低优先考虑任何性别的趋势，从而减少预训练大型语言模型中的性别偏见，而且此方法的使用成本低，是一种高度可行且实用的少量训练样例去偏见方法。

Jun, 2023

基于 BERT 模型的社交媒体仇恨言论检测及种族偏见缓解

通过使用预训练语言模型 BERT 进行迁移学习，本文提出了一种在推特上进行种族主义、性别主义、仇恨性或冒犯性内容检测的算法，并将对算法进行合理地裁剪降低出现倾向性的缺陷。

Aug, 2020

神经自然语言处理中的性别偏见

本文研究了神经自然语言处理系统是否反映了训练数据中的历史偏见。通过定义量化神经自然语言处理任务中的性别偏见的基准测试，实证研究发现目前最先进的神经语言模型和基于基准数据集的循环神经网络在职业看待上存在显著的性别偏见。作者提出了一种基于因果干预的语料库增强通用方法，CDA，以减轻偏见而保留矫正前的准确性。作者发现 CDA 优于词嵌入去偏的先前方法，尤其是在词嵌入训练时；对于预先训练的嵌入，两种方法可以被有效地组合。作者还发现原始数据集在优化时会鼓励性别偏见增加；而 CDA 可以缓解这种行为。

Jul, 2018

关于仇恨言论和辱骂语言检测数据集中的种族偏见问题

本文研究了五个 Twitter 数据集上使用的基于分类器的识别恶意语言的技术中的种族歧视问题，并在使用这些技术时可能产生的不平等负面影响上发出了警告。

May, 2019