测量知识图谱嵌入中的社会偏见
本文提出了一种基于数值偏差度量的方法,用于识别和暴露知识图谱嵌入中存在的偏见,并在职业预测任务中展示了三种不同的偏见度量,从而弥补了目前文献中手动指定偏差关系的缺陷,以支持更明智的决策。
Sep, 2021
本文探讨了知识图谱中的社会偏见和文化偏见,特别是在节点流行度与链接预测精度之间的负相关关系以及从知识图嵌入中预测人的性别并提出了过滤对抗网络(FAN)来消除这些敏感属性信息从而使知识图谱达到去偏见的目的。
Jun, 2020
本文研究了公开可得的单词嵌入在某些社会层面上的偏见反映了实际调查数据,但并非所有维度的数据都能得到反映,只有最显著的偏见维度,例如性别方面,才能得到准确的反映。
Apr, 2020
通过自然语言推理任务设计机制,测量陈旧的语义观念对词向量嵌入产生的影响。通过静态和动态嵌入中的偏见消除策略,减少了对其下游模型的无效推断,特别是对性别偏见的消除策略能够扩展到上下文嵌入中静态组件的有选择性应用(ELMo、BERT)。
Aug, 2019
本研究在 Word Embedding Association Test 的基础上,对句子编码进行了偏差测量,实验包括了包括 ELMo 和 BERT 在内的多种方法,并提议了未来的研究方向。
Mar, 2019
通过引入 Grounded-WEAT 和 Grounded-SEAT 这些新的度量方式,我们对图片和语言的嵌入中存在的偏见进行了广义化的衡量,并通过实验的方法进行了验证;该研究对于构建公平的社会至关重要。
Feb, 2020
本文研究了使用基于词嵌入的偏差度量方法在衡量女性和男性性别偏差时词频对结果的影响,并发现 Skip-gram with negative sampling 和 GloVe 往往会在高频词中检测到男性偏见,而 GloVe 往往会在低频词中检测到女性偏见,并进一步通过与基于点互信息的替代度量方法进行比较,证明了频率对度量结果的影响来自度量本身而非词汇相关性,这种影响是虚假和有问题的,因为偏见度量应该专门依赖于词共现而不是个体词频,尽管基于点互信息的度量略微偏向男性,但它并不表现出清晰的频率依赖关系。
Jan, 2023
使用我们的方法,可以了解到 word embedding 偏差的起源,并找出删除哪些文档可以最大程度地降低偏差。我们在《纽约时报》和 Wikipedia 语料库上演示了我们的技术,并发现我们的影响函数近似非常精确。
Oct, 2018