Gendec: 基于机器学习的从日本人姓名检测性别的框架
本文研究了如何通过设计一种新的中文异构图注意力(Chinese Heterogeneous Graph Attention,CHGAT)模型来更好地推断科学领域女性人员的性别信息。该研究证明了该模型在推断性别方面的效果优于现有工具,并公开了一个更加平衡的多字符名单性别确认数据集和代码,以促进性别平等的相关研究。
Feb, 2023
通过使用多任务学习网络和知识蒸馏方法,我们提供了一种基于汉字的拼音姓名性别猜测解决方案,可以有效地解决当前用于汉字拼音姓名的性别推测工具准确率不高的问题。我们的方法相对于商业性别猜测工具提高了 9.70% 至 20.08%,并且在性能上优于现有的技术算法。
May, 2024
该论文研究了现有几种命名实体识别模型的偏见,特别是在将男性和女性姓名识别为人名实体中存在的差异。该研究评估了包含 139 年美国人口普查婴儿姓名的数据集上的 NER 模型,并发现相对较多的女性姓名未被识别为人名实体。作者还研究了这种偏差在几个业界和学术界中广泛使用的 NER 系统中的程度,并报告了这些模型的训练数据集中存在的偏见。该分析的结果产生了一个新的用于命名实体识别系统中性别偏见评估的基准。该基准的数据和代码将公开提供给研究人员使用。
Oct, 2019
本研究比较了一个生成式人工智能工具 ChatGPT 与三个商业可用的基于列表和机器学习的性别推断工具(Namsor、Gender-API 和 genderize.io)在一个独特数据集上的性能表现,结果显示 ChatGPT 在有国家和 / 或姓氏信息可用时,表现至少与 Namsor 相当,并在女性样本上表现更好。尽管 ChatGPT 并非为此目的设计,但它可能是一种性别预测的成本效益工具,未来甚至可能更好地识别自报性别而不是以二进制标度报告性别。
Nov, 2023
本论文提出了一个对自然语言文本中的性别偏见进行分解的通用框架,通过多维度的性别偏见分类器可以控制生成模型性别偏差的问题,检测任意文本中的性别偏见,并揭示与性别相关的冒犯性语言。
May, 2020
本文介绍了一种自动检测大型语言数据集中具有词汇性别的单词的新方法,以解决手动编译性别化表达的词汇列表的静态问题和无法在分析范围之内的单词问题。该方法是基于字典的,可提供动态的、更新至最新的高覆盖分析,并在随机可获取的维基百科示例中达到了 80%的准确率,在以前的研究中使用的性别化词汇列表测试时也表现良好。
Jun, 2022
我们的研究主要关注从英语到意大利语的性别中性翻译,通过提出专门的基准和探索自动评估方法来满足包容性语言的不断增长的需求。我们介绍了 GeNTE,这是一个自然、双语的性别中性翻译测试集,其创建受到有关中性语言感知和使用的调查的启发。基于 GeNTE,我们概述了现有的基于参考的评估方法,突出了它们的局限性,并提出了一种更适合评估性别中性翻译的无参考方法。
Oct, 2023
本文研究了最先进的机器翻译系统中的信息流,以将法语翻译成英语时的性别转移为例。通过实验控制的示例,我们尝试多种方法来研究性别信息如何在编码器 - 解码器架构中循环传播,包括探测技术以及对 MT 系统中使用的内部表示形式的干预。结果表明,性别信息可以在编码器和解码器构建的所有标记表示中找到,并且导致我们得出结论,即存在多个性别转移的路径。
Feb, 2022