词嵌入何时能准确反映我们对人们的信念调查结果?
本文通过将语义学关系嵌入向量,展示词嵌入的时间动态如何被利用来量化美国20世纪至21世纪对女性和少数民族的刻板印象和态度变化,通过与美国人口普查融合,表明嵌入的变化与时间内的人口和职业转变密切相关,该框架的时间分析为机器学习和数量社会科学之间的新交叉打开了强大的可能性。
Nov, 2017
使用我们的方法,可以了解到word embedding偏差的起源,并找出删除哪些文档可以最大程度地降低偏差。我们在《纽约时报》和Wikipedia语料库上演示了我们的技术,并发现我们的影响函数近似非常精确。
Oct, 2018
本研究在Word Embedding Association Test的基础上,对句子编码进行了偏差测量,实验包括了包括ELMo和BERT在内的多种方法,并提议了未来的研究方向。
Mar, 2019
这篇研究是对知识 graph embeddings 中社会偏见的首次研究,提出新的度量方法,并证明像性别、宗教、民族和国籍这些方面的社会偏见已经编码在嵌入向量中,因此在利用 graph embeddings 时需要谨慎处理。
Dec, 2019
本论文介绍了一个新的内在评估任务和方法ValNorm,可通过语义学的统计规律来量化人类主观评价中影响价值维度的词汇,使用静态单词嵌入技术来评估七种语言(中文,英文,德文,波兰文,葡萄牙文,西班牙文和土耳其文)中几组单词的情感价值,并表明意义不同的单词情感价值具有广泛的共享关联。
Jun, 2020
研究表明单词嵌入存在性别偏见,过去常常以男女性词对来衡量性别偏见,但这种方式存在局限性,因为它们无法识别现实世界中的其他类型偏见,并且不能很好地指示偏见。
Oct, 2020
本研究评估了三种类型的词嵌入性别偏见度量的可信度,包括测试再测试可靠性、评分者一致性和内部一致性,并考察了不同随机种子、评分规则和单词选择等因素对可信度的影响,结果有助于更好地设计性别偏差度量,同时也建议研究者对这些度量的应用更加持批判态度。
Sep, 2021
研究机器学习模型,学习低维表示模式,将词嵌入技术应用于人类行为挖掘,探讨其优势和趋势,并警示相似性度量常常在单独层面返回一致结果,但在聚合层面则有可能产生不同结果。
Jul, 2022
通过分析500k篇美国在线新闻文章中存在的社会偏见类型,使用考虑了嵌入表示问题的多种算法以及WEAT,比较了这些算法在新闻文章中训练的模型所表示的期望社会偏见,结果发现标准偏差检测方法与心理学知识并不一致,而新提出的算法虽然减轻了这种差距,但仍然无法完全匹配这些文献。
Nov, 2022
本文研究了使用基于词嵌入的偏差度量方法在衡量女性和男性性别偏差时词频对结果的影响,并发现 Skip-gram with negative sampling 和 GloVe 往往会在高频词中检测到男性偏见,而 GloVe 往往会在低频词中检测到女性偏见,并进一步通过与基于点互信息的替代度量方法进行比较,证明了频率对度量结果的影响来自度量本身而非词汇相关性,这种影响是虚假和有问题的,因为偏见度量应该专门依赖于词共现而不是个体词频,尽管基于点互信息的度量略微偏向男性,但它并不表现出清晰的频率依赖关系。
Jan, 2023