通过研究word embedding中的性别特征,开发了一种有效算法,减少性别刻板印象又能保留嵌入的有用几何特性。
Jun, 2016
对Google News文章上的Word Embedding进行的实证研究表明,即使是这种非人工制作的大型文本数据,在机器学习和自然语言处理应用中也存在着性别偏见的问题。为了消除这些偏见,我们提出了一种方法进行Word Embedding去偏见化,从而减少性别偏见的扩大和助推。
Jul, 2016
本文介绍了一种新方法,神经网络词嵌入模型,以用于大规模文本分析,揭示了这些模型如何比以前的方法更能产生丰富的文化联想和类别,推进了一个与当代身份和文化理论一致的意义关系模型,以高维空间中的向量几何关系表示单词之间的语义关系。作者展示了词嵌入模型在宏观文化调查中的应用,并给出了对20世纪美国性别和阶级联系的纵向分析以及对美英性别和阶级标记历史区别的比较分析。作者认为,这些高维模型的成功促使朝着“高维度理论化”的意义、身份和文化过程的方向发展。
Mar, 2018
使用我们的方法,可以了解到word embedding偏差的起源,并找出删除哪些文档可以最大程度地降低偏差。我们在《纽约时报》和Wikipedia语料库上演示了我们的技术,并发现我们的影响函数近似非常精确。
Oct, 2018
在研究中,我们发现标准词嵌入即使经过去偏差处理,其性别偏差仍然很高,而上下文词嵌入则能够减少这种性别偏差,从而为自然语言处理应用提供更公正的结果。
Apr, 2019
分别分析了1950年到1990年间荷兰六家全国性报纸的性别偏见,结果表明尽管女性就业人数增加且从事女权主义运动,但偏见仍向男性转移。此文章结合语言学方法,使用词向量模型研究历史语言变化。
Jul, 2019
本文研究了公开可得的单词嵌入在某些社会层面上的偏见反映了实际调查数据,但并非所有维度的数据都能得到反映,只有最显著的偏见维度,例如性别方面,才能得到准确的反映。
Apr, 2020
研究表明单词嵌入存在性别偏见,过去常常以男女性词对来衡量性别偏见,但这种方式存在局限性,因为它们无法识别现实世界中的其他类型偏见,并且不能很好地指示偏见。
Oct, 2020
本研究使用静态词向量嵌入,构建了上下文化的语义轴,以解决反义词有相邻表示的困境,并在两个人类数据集上验证了这些轴的效果:维基百科职业和过去14年中极端主义男性社区中的多平台讨论,结果显示上下文化的语义轴可以有效区分同一单词类型的不同实例。
Oct, 2022
本文研究了使用基于词嵌入的偏差度量方法在衡量女性和男性性别偏差时词频对结果的影响,并发现 Skip-gram with negative sampling 和 GloVe 往往会在高频词中检测到男性偏见,而 GloVe 往往会在低频词中检测到女性偏见,并进一步通过与基于点互信息的替代度量方法进行比较,证明了频率对度量结果的影响来自度量本身而非词汇相关性,这种影响是虚假和有问题的,因为偏见度量应该专门依赖于词共现而不是个体词频,尽管基于点互信息的度量略微偏向男性,但它并不表现出清晰的频率依赖关系。
Jan, 2023