核指消解中的性别偏见
本研究介绍了一个新的基准数据集WinoBias,用于解决与性别偏见有关的指代消解问题。通过数据增强方法,结合现有的词嵌入去偏置技术,可以消除核心指代消解系统对WinoBias数据集中男女刻板定型实体的偏见,同时不会显著影响系统的表现。
Apr, 2018
本文在共指消解和自然语言推理领域引入了一个目标针对常识理解和世界知识的新基准,即Knowref。我们提出了一个包含超过8,000个文本段落的语料库,用于研究具有歧义的代词指代的核心指代功能。我们发现,各种核心参考系统(基于规则的、特征丰富的或神经网络的)在该任务上的表现都比人类差得多,而这可能是因为这些模型缺乏上下文信息。我们还提出了一种数据增强技巧 antecedent switching,并展示了它在其他任务中取得了有 promising 的结果。
Nov, 2018
本研究利用两个共指解析数据集,通过8种有语法性别的目标语言中的形态分析,第一次提出了机器翻译中性别偏见的挑战集和评估协议,并发现四个流行的工业机器翻译系统和两个最新的学术机器翻译模型在所有测试的目标语言上都容易出现性别偏见翻译错误。
Jun, 2019
了解人物性别问题对人物提及的正确解析极为重要,但有风险引起共指解析系统中的系统偏见,本文从社会学和社会语言学的角度具体阐述如何建立可以认知性别复杂性的共指识别系统,并开发了两个新数据集以此来反映和检验系统偏见。通过对英文文本的研究,证实没有认可性别复杂性的系统会导致许多潜在危害。
Oct, 2019
通过寻找语法模式,我们在三个领域的语料库中发现了暗示刻板印象和非刻板印象的性别角色分配(例如女护士与男舞者),并发布了首个包含108k多样化英语句子的大规模性别偏见数据集,使用它来评估各种指代解析和机器翻译模型中的性别偏见,发现所有测试模型在处理自然输入时都倾向于过度依赖性别刻板印象。我们的数据集和模型都在www.github.com/SLAB-NLP/BUG上公开,希望它们能在实际环境中促进未来的性别偏见评估和缓解技术研究。
Sep, 2021
本文调查了304篇关于自然语言处理中的性别偏见的论文,分析了社会科学中性别及其类别的定义,并将其与自然语言处理中性别偏见的正式定义联系起来,概述了应用于性别偏见研究的词汇和数据集,并比较和对比了检测和缓解性别偏见的方法。我们发现性别偏见研究存在四个核心限制,提出了解决这些限制的建议作为未来研究的指南。
Dec, 2021
本文提出了一种新的方法通过反事实生成来收集多样性,自然性和最小距离的文本对,并构建了一个由4008个实例分成1002个四重组成的Counter-GAP注释数据集,以评估语言模型在固指消解中的性别偏见问题。作者使用四重组级别指标解决了以前的偏差取消问题,并发现四个预训练的语言模型在不同性别组之间的不一致性显着大于在每个组内部的不一致性,姓名为基础的反事实数据增强方法比匿名化方法对减少这种偏见更有效。
Feb, 2023
研究探讨荷兰指代消解系统对中性代词(如hen和die)的性能,比较了两种去偏见技术(CDA和delexicalisation)对非二元上下文的指代消解系统的影响,并引入了评估中性代词性能的新度量标准——代词得分。结果显示相较于有性别的对应词,中性代词的性能下降,然而CDA大大缩小了有性别和中性代词之间的性能差距,并且在资源有限的情况下仍然有效,证明了以最少资源和低计算成本实现有效去偏见的可行性。
Apr, 2024
本研究旨在解决存在于Winogender数据集中对代词不同语法形式的处理不一致、模板约束的违反和排版错误等问题,从而影响性别偏见测量的可靠性。我们提出了一个新的数据集Winogender 2.0,并提出一种新的方法评估核心指代中的代名词偏见,显示偏见特征不仅在代词集之间差异明显,而且在这些集的表面形式之间也存在变化。
Sep, 2024
本研究针对使用 Winogender 模式评估核心指代解析中的性别偏见时存在的数据问题进行了深入分析,包括代词形式的等价处理、模板约束违反及排版错误。我们提出了新数据集 WinoPron,并开发了一种新的评估方法,以更全面地衡量核心指代解析中的代名词偏见,发现偏见特征不仅因代词集而异,也因其表面形式而异。
Sep, 2024