基于刻板印象内容模型的社会群体不可知词嵌入去偏置
本文证明了在语境化的词嵌入中,刻板印象内容模型可以得到保持,然后使用这些结果来评估一种旨在将语言模型从对少数群体的刻板印象描绘中远离的微调过程,进一步证明了 SCM 术语能够更好地捕捉偏见,通过一种简单的微调过程,可以减少模型中成见的存在,而不会损害下游性能,这代表了旨在消除模型偏见的去偏见过程的原型。
Oct, 2022
调查了句子级别表达中社会偏见存在的情况,提出了另一种更有效减弱偏差的方法 Sent-Debias,并在保持性能的同时,用于情感分析,语言可接受性和自然语言理解等句子级下游任务。
Jul, 2020
本文提出了一种名为 BIRM (Biased Indirect Relationship Modification) 的新方法,该方法考虑到偏见因子对词对出现概率的影响,并在学习嵌入之前修改词之间的偏见关系,以缓解分布式词嵌入中的间接偏见现象。我们还扩展了词嵌入关联测试(WEAT),提出了新的测试集来测试间接的二元性别刻板印象,并展示了这些新颖测试集下的更深层次、更微妙的刻板印象存在。结果表明,该方法能够降低词嵌入中偏见程度,虽然降低了语义嵌入质量,但对更为平等的非刻板嵌入是迈向关键的一步。
May, 2023
通过自然语言推理任务设计机制,测量陈旧的语义观念对词向量嵌入产生的影响。通过静态和动态嵌入中的偏见消除策略,减少了对其下游模型的无效推断,特别是对性别偏见的消除策略能够扩展到上下文嵌入中静态组件的有选择性应用(ELMo、BERT)。
Aug, 2019
我们提出了 DeepSoftDebias 算法,该算法使用神经网络执行 “软去偏见”,并在各种 SOTA 数据集、准确度指标和复杂的 NLP 任务中进行了全面评估。我们发现 DeepSoftDebias 在减少性别、种族和宗教偏见方面优于当前最先进的方法。
Feb, 2024
本文提出并评估三种新的基于实体的学习方法,利用多个短语应用于同一人,从而放大所学关联的人本性质,以预测人们如何将身份应用于自己和他人,并量化社会上突出的维度上的刻板印象。实验证明这些模型在刻板印象测量方面胜过现有方法,并展示了这些模型在未来计算社会科学中的实用性。
May, 2023
本文提出了一个统一动态嵌入模型,它能学习属性特定的单词嵌入,在历史语料库中调查了性别、种族和难民等方面的偏见。结果发现,动态嵌入模型与独立向量空间模型相比,在表示语言偏见方面更具优越性或更劣。
Apr, 2019