从姓名推断性别:一项大规模性能评估研究
本研究通过语言自动推断性别关联发现单词聚类,并针对其所代表的语义概念进行标记,并比较了两个不同领域写作中人们如何谈论妇女和男子之间的差异,证明了人们谈论妇女和男子的方式存在大规模差异,并且这些差异在不同领域中有所不同。
Aug, 2019
本文提出了一种评估方法来测量天生的性别偏见,其通过构建一项挑战任务,通过将性别中性前提与性别具体假设进行配对的方式来进行。研究发现,许多先进的 NLI 模型在使用职业数据集进行训练时会因性别偏见而出现错误,但通过通过扩充训练数据集来确保性别平衡,可以在某些情况下帮助减少此类偏差。
May, 2021
本研究比较了一个生成式人工智能工具 ChatGPT 与三个商业可用的基于列表和机器学习的性别推断工具(Namsor、Gender-API 和 genderize.io)在一个独特数据集上的性能表现,结果显示 ChatGPT 在有国家和 / 或姓氏信息可用时,表现至少与 Namsor 相当,并在女性样本上表现更好。尽管 ChatGPT 并非为此目的设计,但它可能是一种性别预测的成本效益工具,未来甚至可能更好地识别自报性别而不是以二进制标度报告性别。
Nov, 2023
了解人物性别问题对人物提及的正确解析极为重要,但有风险引起共指解析系统中的系统偏见,本文从社会学和社会语言学的角度具体阐述如何建立可以认知性别复杂性的共指识别系统,并开发了两个新数据集以此来反映和检验系统偏见。通过对英文文本的研究,证实没有认可性别复杂性的系统会导致许多潜在危害。
Oct, 2019
通过使用多任务学习网络和知识蒸馏方法,我们提供了一种基于汉字的拼音姓名性别猜测解决方案,可以有效地解决当前用于汉字拼音姓名的性别推测工具准确率不高的问题。我们的方法相对于商业性别猜测工具提高了 9.70% 至 20.08%,并且在性能上优于现有的技术算法。
May, 2024
本文研究了如何通过设计一种新的中文异构图注意力(Chinese Heterogeneous Graph Attention,CHGAT)模型来更好地推断科学领域女性人员的性别信息。该研究证明了该模型在推断性别方面的效果优于现有工具,并公开了一个更加平衡的多字符名单性别确认数据集和代码,以促进性别平等的相关研究。
Feb, 2023
该论文研究了现有几种命名实体识别模型的偏见,特别是在将男性和女性姓名识别为人名实体中存在的差异。该研究评估了包含 139 年美国人口普查婴儿姓名的数据集上的 NER 模型,并发现相对较多的女性姓名未被识别为人名实体。作者还研究了这种偏差在几个业界和学术界中广泛使用的 NER 系统中的程度,并报告了这些模型的训练数据集中存在的偏见。该分析的结果产生了一个新的用于命名实体识别系统中性别偏见评估的基准。该基准的数据和代码将公开提供给研究人员使用。
Oct, 2019
本文针对任务欠规范化问题,采用因果术语,并开发了一种在未修改大型语言模型时,对性别和性别中性实体之间的杂波关联进行经验测量的方法,检测了以前未报告的杂波相关性。然后,我们描述了一种轻量级方法,利用由此产生的错误关联进行预测任务的不确定性分类,在 Winogender Schemas 挑战集上实现了超过 90%的准确性。最后,我们推广了我们的方法,以处理更广泛的预测任务,并为此处描述的每种方法提供开源演示。
Sep, 2022
本文调查了 304 篇关于自然语言处理中的性别偏见的论文,分析了社会科学中性别及其类别的定义,并将其与自然语言处理中性别偏见的正式定义联系起来,概述了应用于性别偏见研究的词汇和数据集,并比较和对比了检测和缓解性别偏见的方法。我们发现性别偏见研究存在四个核心限制,提出了解决这些限制的建议作为未来研究的指南。
Dec, 2021
本研究使用数据挖掘技术,调查了与软件开发相关的 56 项任务,发现不同任务中含有性别代词的比例差异显著,其中测试与帮助他人的任务中含有 “他” 这一性别代词比例显著较高,这些发现揭示了与软件开发任务相关的性别偏见模式。
Mar, 2023