文本中的性别偏见:标记数据集和词库
本文调查了 304 篇关于自然语言处理中的性别偏见的论文,分析了社会科学中性别及其类别的定义,并将其与自然语言处理中性别偏见的正式定义联系起来,概述了应用于性别偏见研究的词汇和数据集,并比较和对比了检测和缓解性别偏见的方法。我们发现性别偏见研究存在四个核心限制,提出了解决这些限制的建议作为未来研究的指南。
Dec, 2021
该论文介绍了一种利用大型语言模型对西班牙语语料库进行定量分析性别表达的新方法,通过识别和分类与人类实体相关的具有性别特征的名词和代词,揭示了四个广泛使用的基准数据集中存在的显著性别差异,从男性到女性的比例范围从 4:1 到 6:1,这些发现证明了我们方法在性别语言中进行偏见量化的价值,并建议在自然语言处理中应用该方法,为更公平的语言技术发展做出贡献。
Jun, 2024
本文介绍了一种自动检测大型语言数据集中具有词汇性别的单词的新方法,以解决手动编译性别化表达的词汇列表的静态问题和无法在分析范围之内的单词问题。该方法是基于字典的,可提供动态的、更新至最新的高覆盖分析,并在随机可获取的维基百科示例中达到了 80%的准确率,在以前的研究中使用的性别化词汇列表测试时也表现良好。
Jun, 2022
我们研究了不同语言中大型语言模型生成的输出中的性别偏见,通过三项测量方法评估性别相关背景下选择描述性词语的性别偏见、选择性别相关代词(她 / 他)的性别偏见以及生成对话的主题的性别偏见。我们的研究表明,在我们调查的所有语言中都存在显著的性别偏见。
Mar, 2024
本论文提出了一个对自然语言文本中的性别偏见进行分解的通用框架,通过多维度的性别偏见分类器可以控制生成模型性别偏差的问题,检测任意文本中的性别偏见,并揭示与性别相关的冒犯性语言。
May, 2020
语言作为一种强大的工具,用于展示社会信仰体系,同时也延续了我们社会中普遍存在的偏见。性别偏见是我们社会中最普遍的偏见之一,在线和离线话语中都有所体现。随着语言模型越来越接近人类的流利程度,我们需要深入了解这些系统可能产生的偏见。先前的研究通常将性别偏见视为二元分类任务。然而,我们认识到偏见必须按照相对的尺度来感知,因此我们研究了各种程度偏见的生成和相关性质,并调查了手动注释者对这些偏见的接受程度。具体来说,我们创建了第一个带有性别偏见的 GPT 生成英文文本数据集,并使用最佳 - 最差比例进行了权威评级以获得相对评估的度量。接下来,我们系统分析了观察到的排名中性别偏见主题的变化,并显示了攻击身份是与性别偏见最相关的。最后,我们展示了现有模型在我们的数据集上训练的相关概念上的性能。
Oct, 2023
本文提出了一种评估方法来测量天生的性别偏见,其通过构建一项挑战任务,通过将性别中性前提与性别具体假设进行配对的方式来进行。研究发现,许多先进的 NLI 模型在使用职业数据集进行训练时会因性别偏见而出现错误,但通过通过扩充训练数据集来确保性别平衡,可以在某些情况下帮助减少此类偏差。
May, 2021
本文研究滥用语言检测模型的偏见问题,通过使用不同的滥用语言数据集和预训练词嵌入和模型架构,分析性别偏见并尝试了三种减轻 偏见的方法:去偏向词嵌入、性别交换数据扩充以及使用更大的语料库进行微调。这些方法有效的降低了性别偏见 90-98%,并且可以扩展到解决其他情况下的偏见问题。
Aug, 2018
通过寻找语法模式,我们在三个领域的语料库中发现了暗示刻板印象和非刻板印象的性别角色分配(例如女护士与男舞者),并发布了首个包含 108k 多样化英语句子的大规模性别偏见数据集,使用它来评估各种指代解析和机器翻译模型中的性别偏见,发现所有测试模型在处理自然输入时都倾向于过度依赖性别刻板印象。我们的数据集和模型都在 www.github.com/SLAB-NLP/BUG 上公开,希望它们能在实际环境中促进未来的性别偏见评估和缓解技术研究。
Sep, 2021