使用词向量研究1950-1990年荷兰报纸中的性别偏见
本文通过将语义学关系嵌入向量,展示词嵌入的时间动态如何被利用来量化美国20世纪至21世纪对女性和少数民族的刻板印象和态度变化,通过与美国人口普查融合,表明嵌入的变化与时间内的人口和职业转变密切相关,该框架的时间分析为机器学习和数量社会科学之间的新交叉打开了强大的可能性。
Nov, 2017
本研究探讨了文本话语中的性别偏见现象,评估了现有去偏置模型的实际效果,认为现有去偏置方法虽然在表面上达到了降低偏见的效果,但实际上却只是掩盖了偏见,并认为现有技术不足以构建性别中性的计算模型。
Mar, 2019
研究表明单词嵌入存在性别偏见,过去常常以男女性词对来衡量性别偏见,但这种方式存在局限性,因为它们无法识别现实世界中的其他类型偏见,并且不能很好地指示偏见。
Oct, 2020
本研究使用 Word Embeddings Association Test (WEAT)、Clustering 和 Sentence Embeddings Association Test (SEAT) 等方法,衡量荷兰语词嵌入中的性别偏见,并使用 Hard-Debias 和 Sent-Debias 调控方法,探索性别偏见对下游任务的影响。结果表明,传统和上下文嵌入中存在性别偏见,研究人员提供了翻译荷兰语数据集和减轻偏误的嵌入。
Oct, 2020
本文探讨了一种通过比较相关单词上下文来自动识别有偏见语言的方法,即使用在左翼和右翼新闻机构上的词嵌入模型训练,结果表明此方法是有效的。
Dec, 2021
研究发现使用 LSTM 架构训练的语言模型在表示性别时存在动态变化,并且性别信息逐渐局部化。通过监控训练动态,可以检测到女性和男性在输入嵌入中的表示不对称。去除偏见的策略如何应用需要更多深入探讨。
Jul, 2022
通过分析500k篇美国在线新闻文章中存在的社会偏见类型,使用考虑了嵌入表示问题的多种算法以及WEAT,比较了这些算法在新闻文章中训练的模型所表示的期望社会偏见,结果发现标准偏差检测方法与心理学知识并不一致,而新提出的算法虽然减轻了这种差距,但仍然无法完全匹配这些文献。
Nov, 2022
本文研究了使用基于词嵌入的偏差度量方法在衡量女性和男性性别偏差时词频对结果的影响,并发现 Skip-gram with negative sampling 和 GloVe 往往会在高频词中检测到男性偏见,而 GloVe 往往会在低频词中检测到女性偏见,并进一步通过与基于点互信息的替代度量方法进行比较,证明了频率对度量结果的影响来自度量本身而非词汇相关性,这种影响是虚假和有问题的,因为偏见度量应该专门依赖于词共现而不是个体词频,尽管基于点互信息的度量略微偏向男性,但它并不表现出清晰的频率依赖关系。
Jan, 2023
本文通过时间序列的词汇联想分析,以及针对OCR错误引入噪音的技术处理,研究了加勒比地区殖民时期(18世纪到19世纪)历史报纸中性别、种族偏见的连续性和转化。研究结果表明,种族和性别偏见是相互依存的,两者的交叉触发了不同效应,这与交叉性理论一致。
May, 2023
新闻报道中的偏见表现和影响是社会科学的核心主题,近年来在自然语言处理领域受到了越来越多的关注。本研究综述了社会科学的方法,并将其与自然语言处理领域中用于分析媒体偏见的典型任务表述、方法和评估指标进行了对比。我们讨论了开放性问题,并提出了可能的研究方向,以填补理论与预测模型之间及其评估之间的差距。这些包括模型透明度、考虑文档外部信息以及跨文档推理而非单一标签的分配。
Sep, 2023