利用实体为中心的数据测量刻板印象
本文研究了预训练语言模型的生成文本中存在的人类偏见和其对不同人口群体的影响,针对现有的评估技术和基准的准确性问题,提出了新的评估框架以更稳健地测量和量化语言模型所表现出的偏见。并使用该框架调查了 GPT-3 的职业性别偏见,并提出了一些缓解这些偏见的提示技术。
Dec, 2022
该论文介绍了 StereoSet,一个用于评估英语中预训练语言模型中四种基于性别、职业、种族和宗教的陈规陋习偏见的大规模自然数据集,并评估了 BERT、GPT-2、RoBERTa 和 XLNet 等流行的语言模型在其中的表现,同时呈现了一个有隐藏测试集的排行榜来跟踪未来语言模型的偏见。
Apr, 2020
通过自然语言推理任务设计机制,测量陈旧的语义观念对词向量嵌入产生的影响。通过静态和动态嵌入中的偏见消除策略,减少了对其下游模型的无效推断,特别是对性别偏见的消除策略能够扩展到上下文嵌入中静态组件的有选择性应用(ELMo、BERT)。
Aug, 2019
本研究使用社会心理学的 Agency-Belief-Communion (ABC) 刻板印象模型来系统地研究和发现语言模型中的刻板印象,提出了敏感度测试(SeT)以测量语言模型中的刻板印象,并将该框架扩展到测量交叉身份的 LM 刻板印象。
Jun, 2022
本文通过将语义学关系嵌入向量,展示词嵌入的时间动态如何被利用来量化美国 20 世纪至 21 世纪对女性和少数民族的刻板印象和态度变化,通过与美国人口普查融合,表明嵌入的变化与时间内的人口和职业转变密切相关,该框架的时间分析为机器学习和数量社会科学之间的新交叉打开了强大的可能性。
Nov, 2017
本研究基于模板方法提出了一种量化 BERT 中偏见的方法,并且通过性别代词解析的案例研究证明了该方法在捕捉社会偏见方面的优越性,同时也指出了该方法的普遍适用性,包括在多类别设置中使用的种族和宗教偏见。
Jun, 2019
本文证明了在语境化的词嵌入中,刻板印象内容模型可以得到保持,然后使用这些结果来评估一种旨在将语言模型从对少数群体的刻板印象描绘中远离的微调过程,进一步证明了 SCM 术语能够更好地捕捉偏见,通过一种简单的微调过程,可以减少模型中成见的存在,而不会损害下游性能,这代表了旨在消除模型偏见的去偏见过程的原型。
Oct, 2022
研究比较了英语和德语中职业名称和性别指示目标词之间的关联性,并使用 Bert 模型来检测性别偏见,结果表明非常适合英语,但不适合具有丰富的形态和性别标记的德语等语言,本文强调探究偏见和减轻技术的重要性,特别是在大规模,多语言的语言模型中。
Oct, 2020