无监督发现隐性性别偏见
研究表明,预训练语言模型从其训练语料库中学习到具有社会伤害性的偏见,并可能在生成过程中重复这些偏见。本文研究模型生成故事中与主角相关的性别偏见,使用常识推理引擎揭示了其中的隐含偏见,包括主角的动机、属性、心态以及对他人的影响。我们的研究发现对于隐含的偏见与之前研究显性偏见的结论一致,例如女性角色的描写主要集中在外貌上,而男性角色则侧重于智力方面。
Sep, 2021
本文通过研究基于大规模未标记图像数据的机器学习方法,并发现其可能对种族,性别,体重,残疾和少数种族存在的偏见和刻板印象进行了分类和嵌入,从而证明了这些模型可能会自动学习社会偏见。
Oct, 2020
本文提出了一种评估方法来测量天生的性别偏见,其通过构建一项挑战任务,通过将性别中性前提与性别具体假设进行配对的方式来进行。研究发现,许多先进的 NLI 模型在使用职业数据集进行训练时会因性别偏见而出现错误,但通过通过扩充训练数据集来确保性别平衡,可以在某些情况下帮助减少此类偏差。
May, 2021
该研究的主要贡献是,通过收集、注释和增强相关句子以促进检测英文文本中的性别偏见,公开提供已标记的数据集和详尽的词汇表,其中所包含的偏见子类型包括:通用他,通用她,明确标记性别和性别新词。同时,利用词嵌入模型进一步增强了所收集的词汇表。
Jan, 2022
大语言模型可以生成具有偏见的回答。然而,先前的直接探测技术包含性别提及或预定义的性别刻板印象,这些很难全面收集。因此,我们提出了一种基于条件生成的间接探测框架,旨在诱使大语言模型揭示其性别偏见,即使没有显式的性别或刻板印象提及。我们探索了三种不同的策略来揭示大语言模型中的显式和隐式性别偏见。我们的实验证明,所有经过测试的大语言模型都表现出显式和 / 或隐式的性别偏见,即使输入中没有性别刻板印象。此外,模型大小的增加或模型对齐会放大大多数情况下的偏见。此外,我们通过超参数调整、指导性指导和去偏调整这三种方法来研究大语言模型中的偏见缓解。值得注意的是,即使没有显式的性别或刻板印象,这些方法也被证明是有效的。
Feb, 2024
本论文提出了一个对自然语言文本中的性别偏见进行分解的通用框架,通过多维度的性别偏见分类器可以控制生成模型性别偏差的问题,检测任意文本中的性别偏见,并揭示与性别相关的冒犯性语言。
May, 2020
本文针对任务欠规范化问题,采用因果术语,并开发了一种在未修改大型语言模型时,对性别和性别中性实体之间的杂波关联进行经验测量的方法,检测了以前未报告的杂波相关性。然后,我们描述了一种轻量级方法,利用由此产生的错误关联进行预测任务的不确定性分类,在 Winogender Schemas 挑战集上实现了超过 90%的准确性。最后,我们推广了我们的方法,以处理更广泛的预测任务,并为此处描述的每种方法提供开源演示。
Sep, 2022
我们介绍了关于三种语言中偏见的新的大型标记数据集,并通过实验证明了在评估的 5 种语言中的 10 个数据集中都存在偏见,包括英语 GLUE/SuperGLUE 排行榜上的基准数据集。 我们使用 SotA 多语言预训练模型 mT5 和 mBERT 对这些数据集进行了基准测试。在 AI 和大型语言模型(LLMs)的最新事件中,基于偏见的社会偏见是无处不在的。受到这一挑战的驱使,我们开始估计多个数据集中的偏见。我们比较了一些最近的偏见指标,并使用具有度量解释性的 bipol。我们还通过使用 95%的置信水平和 7%的误差范围在有害评论的数据集群中随机抽取了 200 个样本,以确认没有经过验证的假设即偏向存在。 在 200 个样本中,有 30 个样本被随机分布以确保标注的质量。我们的研究结果确认了许多数据集存在男性偏见(对女性的偏见),除其他类型的偏见。我们公开发布了新的数据集、词典、模型和代码。
Apr, 2024
使用新颖的数据集开发方法,Biasly 数据集以与文献中独特的方式捕捉了对女性的厌恶的微妙之处。与多领域专家和标注员合作构建的数据集包含了电影字幕的标注,捕捉了北美电影中的口语表达对女性的厌恶。该数据集可用于各种 NLP 任务,包括分类、严重程度评分回归和文本重写的生成。在本文中,我们讨论了所使用的方法学,分析了获得的标注,并在对女性厌恶检测和缓解的背景下使用常见的 NLP 算法提供了基线。我们希望这项工作能促进 AI 在 NLP 中的社会价值,用于偏见检测、解释和消除。
Nov, 2023