基于在线数据库的词汇性别推理方法研究
该研究的主要贡献是,通过收集、注释和增强相关句子以促进检测英文文本中的性别偏见,公开提供已标记的数据集和详尽的词汇表,其中所包含的偏见子类型包括:通用他,通用她,明确标记性别和性别新词。同时,利用词嵌入模型进一步增强了所收集的词汇表。
Jan, 2022
该论文介绍了一种利用大型语言模型对西班牙语语料库进行定量分析性别表达的新方法,通过识别和分类与人类实体相关的具有性别特征的名词和代词,揭示了四个广泛使用的基准数据集中存在的显著性别差异,从男性到女性的比例范围从 4:1 到 6:1,这些发现证明了我们方法在性别语言中进行偏见量化的价值,并建议在自然语言处理中应用该方法,为更公平的语言技术发展做出贡献。
Jun, 2024
本文调查了 304 篇关于自然语言处理中的性别偏见的论文,分析了社会科学中性别及其类别的定义,并将其与自然语言处理中性别偏见的正式定义联系起来,概述了应用于性别偏见研究的词汇和数据集,并比较和对比了检测和缓解性别偏见的方法。我们发现性别偏见研究存在四个核心限制,提出了解决这些限制的建议作为未来研究的指南。
Dec, 2021
本文提出了一种评估方法来测量天生的性别偏见,其通过构建一项挑战任务,通过将性别中性前提与性别具体假设进行配对的方式来进行。研究发现,许多先进的 NLI 模型在使用职业数据集进行训练时会因性别偏见而出现错误,但通过通过扩充训练数据集来确保性别平衡,可以在某些情况下帮助减少此类偏差。
May, 2021
本研究通过语言自动推断性别关联发现单词聚类,并针对其所代表的语义概念进行标记,并比较了两个不同领域写作中人们如何谈论妇女和男子之间的差异,证明了人们谈论妇女和男子的方式存在大规模差异,并且这些差异在不同领域中有所不同。
Aug, 2019
本研究提出了一种基于跨语言枢轴技术的新颖方法,用于自动生成高质量的性别标签,并展示了这些数据可用于微调 BERT 分类器,该分类器对于西班牙语中丢失的女性代词具有 92%的 F1,相比之下,神经机器翻译模型和非微调 BERT 模型分别为 30-51% 和 54-71%。我们使用来自我们分类器的标签来增强神经机器翻译模型以改进代词翻译,同时仍具有可并行化的翻译模型,可以逐句翻译。
Jun, 2020
通过寻找语法模式,我们在三个领域的语料库中发现了暗示刻板印象和非刻板印象的性别角色分配(例如女护士与男舞者),并发布了首个包含 108k 多样化英语句子的大规模性别偏见数据集,使用它来评估各种指代解析和机器翻译模型中的性别偏见,发现所有测试模型在处理自然输入时都倾向于过度依赖性别刻板印象。我们的数据集和模型都在 www.github.com/SLAB-NLP/BUG 上公开,希望它们能在实际环境中促进未来的性别偏见评估和缓解技术研究。
Sep, 2021
本研究提出了一种用于评估机器翻译系统性别偏见的测试集方案,并构建了一组既不带有偏见性别也不过度偏向一侧的词组,然后通过该方案评估了传统机器翻译系统的性别偏见。
May, 2019
我们研究了不同语言中大型语言模型生成的输出中的性别偏见,通过三项测量方法评估性别相关背景下选择描述性词语的性别偏见、选择性别相关代词(她 / 他)的性别偏见以及生成对话的主题的性别偏见。我们的研究表明,在我们调查的所有语言中都存在显著的性别偏见。
Mar, 2024
本论文提出了一个对自然语言文本中的性别偏见进行分解的通用框架,通过多维度的性别偏见分类器可以控制生成模型性别偏差的问题,检测任意文本中的性别偏见,并揭示与性别相关的冒犯性语言。
May, 2020