理解词嵌入中偏见的起源
通过自然语言推理任务设计机制,测量陈旧的语义观念对词向量嵌入产生的影响。通过静态和动态嵌入中的偏见消除策略,减少了对其下游模型的无效推断,特别是对性别偏见的消除策略能够扩展到上下文嵌入中静态组件的有选择性应用(ELMo、BERT)。
Aug, 2019
本研究探索检测嵌入式中最具有性别刻板印象的词语并消除偏见的新方法,揭示名字作为性别偏见的携带者的属性,扩展名字的属性来检测嵌入式中其他类型的偏见,如基于种族、年龄的偏见。
Jan, 2019
本文介绍了一种用于枚举词嵌入中偏差的算法。该算法利用几何模式在公共可用的嵌入中暴露了大量与敏感特征(如种族和性别)相关的冒犯性联想,以及所谓 “消除偏见” 的嵌入。该算法高度不受监督,可用于识别基于社会建构的许多形式的歧视,如种族歧视,这些歧视可能会因上下文而异。同时,我们还展示了如何移除名字可能无法消除潜在的代理偏差。
Dec, 2018
本文研究了当前用于检测和缓解词嵌入偏差的工具和技术,发现它们对非技术人员存在很高的技术门槛,因此提出开发一种旨在降低技术门槛、提供专业探索力量以应对专家、科学家和普通人日益增长的审核需求的工具。
Jul, 2022
该研究对分布式词向量空间中的偏见效应进行了系统性分析,研究表明:偏见效应在不同的词向量模型、文本类型和语言之间是不一致的,同时,双语词向量空间中的跨语言偏见也是存在的。该研究以期促进自然语言处理中的偏见研究,为偏见缓解技术的发展提供帮助。
Apr, 2019
研究表明,预训练词嵌入可能会的继承训练数据的性别偏见,并探究这种偏见如何影响职业分类任务。该文案例研究发现,传统的去偏方法可能会导致下游分类器的偏见恶化,但我们提出了一种相对较小的调整方法来同时减少偏见并保持高分类精度。
Aug, 2019
本研究提出了一种使用字典对预先训练的词嵌入进行去偏置的方法,该方法不需要访问原始的训练资源或了解所使用的词嵌入算法,并可以自动从字典定义中学习无偏置词嵌入所需满足的约束条件。实验结果表明,该方法可以准确消除预先训练的词嵌入中编码的不公平偏见,同时保留有用的语义信息。
Jan, 2021