基于刻板印象内容模型的社会群体不可知词嵌入去偏置

Oct, 2022

基于刻板印象内容模型的社会群体不可知词嵌入去偏置

Social-Group-Agnostic Word Embedding Debiasing via the Stereotype Content Model

Ali Omrani, Brendan Kennedy, Mohammad Atari, Morteza Dehghani

TL;DR本文提出一种基于 Stereotype Content Model（SCM）的单词嵌入去偏见方法，使用具有 “温暖” 和 “能力” 的特定单词对嵌入矢量进行偏差修正，并在不同社会群体中进行了性能比较。

Abstract

Existing word embedding debiasing methods require social-group-specific word pairs (e.g., "man"-"woman") for each social attribute (e.g., gender), which cannot be used to mitigate bias for other social groups, making these methods impractical or costly to incorporate →

word embedding debiasing stereotype content model warmth competence understudied social groups

发现论文，激发创造

一种基于刻板印象内容模型的强健偏见缓解程序

本文证明了在语境化的词嵌入中，刻板印象内容模型可以得到保持，然后使用这些结果来评估一种旨在将语言模型从对少数群体的刻板印象描绘中远离的微调过程，进一步证明了 SCM 术语能够更好地捕捉偏见，通过一种简单的微调过程，可以减少模型中成见的存在，而不会损害下游性能，这代表了旨在消除模型偏见的去偏见过程的原型。

Oct, 2022

理解和应对刻板印象：基于计算方法的刻板印象内容模型研究

通过计算 SCM 模型方法的实施，本文针对文本中的刻板印象进行解释和应用，同时研究了通过反刻板印象来减少偏见思维的有效策略。

Jun, 2021

立体地图：量化大型语言模型中类人种族刻板印象的认知

大语言模型（LLMs）如何感知和表达社会群体，及其潜在偏见和有害联想的维度研究。

Oct, 2023

量化和减少词嵌入中的刻板印象

通过研究 word embedding 中的性别特征，开发了一种有效算法，减少性别刻板印象又能保留嵌入的有用几何特性。

Jun, 2016

推进句子表示的去偏见化

调查了句子级别表达中社会偏见存在的情况，提出了另一种更有效减弱偏差的方法 Sent-Debias，并在保持性能的同时，用于情感分析，语言可接受性和自然语言理解等句子级下游任务。

Jul, 2020

检测和减轻词嵌入中的间接刻板印象

本文提出了一种名为 BIRM (Biased Indirect Relationship Modification) 的新方法，该方法考虑到偏见因子对词对出现概率的影响，并在学习嵌入之前修改词之间的偏见关系，以缓解分布式词嵌入中的间接偏见现象。我们还扩展了词嵌入关联测试（WEAT），提出了新的测试集来测试间接的二元性别刻板印象，并展示了这些新颖测试集下的更深层次、更微妙的刻板印象存在。结果表明，该方法能够降低词嵌入中偏见程度，虽然降低了语义嵌入质量，但对更为平等的非刻板嵌入是迈向关键的一步。

May, 2023

关于测量和减轻词嵌入偏见推断的研究

通过自然语言推理任务设计机制，测量陈旧的语义观念对词向量嵌入产生的影响。通过静态和动态嵌入中的偏见消除策略，减少了对其下游模型的无效推断，特别是对性别偏见的消除策略能够扩展到上下文嵌入中静态组件的有选择性应用（ELMo、BERT）。

Aug, 2019

从偏见到平等：消除大型语言模型词向量偏差的新方法

我们提出了 DeepSoftDebias 算法，该算法使用神经网络执行 “软去偏见”，并在各种 SOTA 数据集、准确度指标和复杂的 NLP 任务中进行了全面评估。我们发现 DeepSoftDebias 在减少性别、种族和宗教偏见方面优于当前最先进的方法。

Feb, 2024

利用实体为中心的数据测量刻板印象

本文提出并评估三种新的基于实体的学习方法，利用多个短语应用于同一人，从而放大所学关联的人本性质，以预测人们如何将身份应用于自己和他人，并量化社会上突出的维度上的刻板印象。实验证明这些模型在刻板印象测量方面胜过现有方法，并展示了这些模型在未来计算社会科学中的实用性。

May, 2023

公共领域感知映射的简单动态词嵌入

本文提出了一个统一动态嵌入模型，它能学习属性特定的单词嵌入，在历史语料库中调查了性别、种族和难民等方面的偏见。结果发现，动态嵌入模型与独立向量空间模型相比，在表示语言偏见方面更具优越性或更劣。

Apr, 2019