基于贝叶斯方法的词向量偏差估计不确定性

Jun, 2023

基于贝叶斯方法的词向量偏差估计不确定性

A Bayesian approach to uncertainty in word embedding bias estimation

Alicja Dobrzeniecka, Rafal Urbaniak

TL;DR该研究提出了一种基于贝叶斯建模的方法，以更准确地检测词向量中的偏见，并在 Religion、Gender 和 Race 词表上进行了展示，验证了它的有效性。

Abstract

Multiple measures, such as WEAT or MAC, attempt to quantify the magnitude of bias present in word embeddings in terms of a single-number metric. However, such metrics and the related statistical significance calc

word embeddings bias bayesian modeling debiasing technique hierarchical modeling

发现论文，激发创造

词嵌入联合多类别去偏置

本文提出了一种联合多类去偏差方法 SoftWEAT，它可以在减少多个偏差方面取得良好的结果，并通过在三个不同的公开数据集上进行实验，在三个偏差分类（宗教、性别和种族）中去偏差 Word Embeddings，显示出其可行性，同时维持着词嵌入中向量的有意义关系，从而加强了更具代表性的文本数据的基础。

Mar, 2020

社会偏见媒体表示准确度的评估：没有完美的单词嵌入模型

通过分析 500k 篇美国在线新闻文章中存在的社会偏见类型，使用考虑了嵌入表示问题的多种算法以及 WEAT，比较了这些算法在新闻文章中训练的模型所表示的期望社会偏见，结果发现标准偏差检测方法与心理学知识并不一致，而新提出的算法虽然减轻了这种差距，但仍然无法完全匹配这些文献。

Nov, 2022

自然语言生成自动评估度量中的社会偏见

该论文提出了一种基于 WEAT 和 SEAT 的方法来量化评价指标中的社会偏见，发现在一些基于模型的自动评价指标中也存在广泛的社会偏见，并构建了性别交换的元评价数据集来研究在图像标题和文本摘要任务中性别偏见的潜在影响。结果表明，基于模型的评价指标在评估中给予男性假设更多的偏好，并且在性别交换后评估指标与人类判断之间的相关性通常具有更大的变化。

Oct, 2022

关于测量和减轻词嵌入偏见推断的研究

通过自然语言推理任务设计机制，测量陈旧的语义观念对词向量嵌入产生的影响。通过静态和动态嵌入中的偏见消除策略，减少了对其下游模型的无效推断，特别是对性别偏见的消除策略能够扩展到上下文嵌入中静态组件的有选择性应用（ELMo、BERT）。

Aug, 2019

我的词嵌入中有哪些偏见？

本文介绍了一种用于枚举词嵌入中偏差的算法。该算法利用几何模式在公共可用的嵌入中暴露了大量与敏感特征（如种族和性别）相关的冒犯性联想，以及所谓 “消除偏见” 的嵌入。该算法高度不受监督，可用于识别基于社会建构的许多形式的歧视，如种族歧视，这些歧视可能会因上下文而异。同时，我们还展示了如何移除名字可能无法消除潜在的代理偏差。

Dec, 2018

词向量的统计不确定性: GloVe-V

在计算社会科学的各种应用中，静态词嵌入广泛存在并为实际决策做出了贡献，然而，从词嵌入统计中得出的下游结论的统计不确定性评估一直是具有挑战性的。本文提出了一种方法，通过使用多元正态模型的解析近似来获得 GloVe（Pennington 等，2014）的近似、易于使用和可扩展的重建误差方差估计，GloVe 是最广泛使用的词嵌入模型之一。为了展示具有方差（GloVe-V）的嵌入的价值，我们说明了我们的方法如何使核心词嵌入任务中的原则性假设检验变得合理，例如在向量空间中比较不同词对之间的相似性，评估不同模型的性能，并使用不同的词列表分析语料库中的种族或性别偏见的相对程度。

Jun, 2024

识别、可解释性和贝叶斯词嵌入

本文提出了两种改进基于词嵌入的模型的方法，通过引入自动相关确定先验的贝叶斯词嵌入方法以及潜在变量模型锚定方法，实现对词嵌入矩阵的可解释性和可回归性，并应用于美国总统就职演讲中国际主义言论的转变以及美国外交政策制定者争论中的好战性增加相关性分析，得出总统就职演讲中的国际主义言论自 1945 年以来逐渐减少，而好战行动的增加与美国的敌对行动增加相关的结论。

Apr, 2019

荷兰语词嵌入的偏差评估

本研究使用 Word Embeddings Association Test (WEAT)、Clustering 和 Sentence Embeddings Association Test (SEAT) 等方法，衡量荷兰语词嵌入中的性别偏见，并使用 Hard-Debias 和 Sent-Debias 调控方法，探索性别偏见对下游任务的影响。结果表明，传统和上下文嵌入中存在性别偏见，研究人员提供了翻译荷兰语数据集和减轻偏误的嵌入。

Oct, 2020

词嵌入的地理负偏差预测种族敌意 —— 仅通过姓名频率

该论文研究了使用 word embeddings 进行测量种族偏见时出现的问题，结果表明需要考虑 term frequency，同时还展示了使用 black-box 模型研究人类认知和行为潜在后果。

Jan, 2022

评估词向量性别偏差度量的可靠性

本研究评估了三种类型的词嵌入性别偏见度量的可信度，包括测试再测试可靠性、评分者一致性和内部一致性，并考察了不同随机种子、评分规则和单词选择等因素对可信度的影响，结果有助于更好地设计性别偏差度量，同时也建议研究者对这些度量的应用更加持批判态度。

Sep, 2021