基于词向量的性别偏见评估的鲁棒性和可靠性：碱基对的作用

Oct, 2020

基于词向量的性别偏见评估的鲁棒性和可靠性：碱基对的作用

Robustness and Reliability of Gender Bias Assessment in WordEmbeddings: The Role of Base Pairs

Haiyang Zhang, Alison Sneyd, Mark Stevenson

TL;DR研究表明单词嵌入存在性别偏见，过去常常以男女性词对来衡量性别偏见，但这种方式存在局限性，因为它们无法识别现实世界中的其他类型偏见，并且不能很好地指示偏见。

Abstract

It has been shown that word embeddings can exhibit gender bias, and various methods have been proposed to quantify this. However, the extent to which the methods are capturing →

发现论文，激发创造

量化和减少词嵌入中的刻板印象

通过研究word embedding中的性别特征，开发了一种有效算法，减少性别刻板印象又能保留嵌入的有用几何特性。

Jun, 2016

去偏见：消除词嵌入中的“人类是程序员，女性是家庭主妇”偏见

对Google News文章上的Word Embedding进行的实证研究表明，即使是这种非人工制作的大型文本数据，在机器学习和自然语言处理应用中也存在着性别偏见的问题。为了消除这些偏见，我们提出了一种方法进行Word Embedding去偏见化，从而减少性别偏见的扩大和助推。

Jul, 2016

猪涂口红：去偏置方法虽然掩盖了词嵌入中系统性的性别偏差，但并未消除它们

本研究探讨了文本话语中的性别偏见现象，评估了现有去偏置模型的实际效果，认为现有去偏置方法虽然在表面上达到了降低偏见的效果，但实际上却只是掩盖了偏见，并认为现有技术不足以构建性别中性的计算模型。

Mar, 2019

评估上下文词嵌入中的潜在性别偏见

在研究中，我们发现标准词嵌入即使经过去偏差处理，其性别偏差仍然很高，而上下文词嵌入则能够减少这种性别偏差，从而为自然语言处理应用提供更公正的结果。

Apr, 2019

探讨具有语法性别的语言中的性别偏见

该研究提出了一种新的度量标准来评估西班牙语和法语等语言中的词嵌入性别偏见，并进一步证明了双语词嵌入与英文词嵌入存在性别偏见的一致性。同时作者还提供了一种新的方法用于缓解这种偏见。实验结果表明这些方法有效地减少了性别偏见，同时也保持了嵌入向量的实用性。

Sep, 2019

揭示背景刻板印象：测量和减轻BERT 的性别偏见

研究比较了英语和德语中职业名称和性别指示目标词之间的关联性，并使用Bert模型来检测性别偏见，结果表明非常适合英语，但不适合具有丰富的形态和性别标记的德语等语言，本文强调探究偏见和减轻技术的重要性，特别是在大规模，多语言的语言模型中。

Oct, 2020

评估词向量性别偏差度量的可靠性

本研究评估了三种类型的词嵌入性别偏见度量的可信度，包括测试再测试可靠性、评分者一致性和内部一致性，并考察了不同随机种子、评分规则和单词选择等因素对可信度的影响，结果有助于更好地设计性别偏差度量，同时也建议研究者对这些度量的应用更加持批判态度。

Sep, 2021

自然语言处理中的性别偏见调查

本文调查了304篇关于自然语言处理中的性别偏见的论文，分析了社会科学中性别及其类别的定义，并将其与自然语言处理中性别偏见的正式定义联系起来，概述了应用于性别偏见研究的词汇和数据集，并比较和对比了检测和缓解性别偏见的方法。我们发现性别偏见研究存在四个核心限制，提出了解决这些限制的建议作为未来研究的指南。

Dec, 2021

词向量中的性别偏见: 频率、语法和语义的全面分析

研究发现，英语语料库中的统计规律将社会中已知的性别偏见编码为词嵌入中的群体偏见。使用单类别词嵌入关联测试，作者发现广泛存在性别偏差，这些偏差在词频、词性标记、语义类别和情绪情感方面均有所不同。男性更倾向于与技术、工程、宗教、体育和暴力等概念相关联，而女性则偏向于涉及外观和厨房等领域。同时，男性相关的词汇具有更强的情绪唤起和主导性，而女性相关的词汇则更加温馨。

Jun, 2022

基于词嵌入的性别偏见度量的不良频率依赖性

本文研究了使用基于词嵌入的偏差度量方法在衡量女性和男性性别偏差时词频对结果的影响，并发现 Skip-gram with negative sampling 和 GloVe 往往会在高频词中检测到男性偏见，而 GloVe 往往会在低频词中检测到女性偏见，并进一步通过与基于点互信息的替代度量方法进行比较，证明了频率对度量结果的影响来自度量本身而非词汇相关性，这种影响是虚假和有问题的，因为偏见度量应该专门依赖于词共现而不是个体词频，尽管基于点互信息的度量略微偏向男性，但它并不表现出清晰的频率依赖关系。

Jan, 2023