Gendec: 基于机器学习的从日本人姓名检测性别的框架

Nov, 2023

Gendec: 基于机器学习的从日本人姓名检测性别的框架

Gendec: A Machine Learning-based Framework for Gender Detection from Japanese Names

Duong Tien Pham, Luan Thanh Nguyen

TL;DR通过对日本名字的分析，本研究提出了一种可以准确检测日本名字的性别的方法，并且构建了一个包含难读、平假名和汉字形式的 64139 个名字及其生物性别的数据集。通过这个新的框架，可以从名字中预测性别，解锁与语言模式和文化规范相关的有价值的信息。

Abstract

Every human has their own name, a fundamental aspect of their identity and cultural heritage. The name often conveys a wealth of information, including details about an individual's background, ethnicity, and, especially, their gender. By detecting gender through the analysis of names, researchers can unlock valuable insights into →

name gender detection linguistic patterns cultural norms japanese names gender detection framework

发现论文，激发创造

从姓名推断性别：一项大规模性能评估研究

通过大规模性能评估现有的姓名 - 性别推测方法，并提出两种新的混合方法，以取得比任何单一现有方法更好的性能。

Aug, 2023

针对性别偏见研究中的被忽视群体：使用异构图注意力网络进行汉字姓名性别预测

本文研究了如何通过设计一种新的中文异构图注意力（Chinese Heterogeneous Graph Attention，CHGAT）模型来更好地推断科学领域女性人员的性别信息。该研究证明了该模型在推断性别方面的效果优于现有工具，并公开了一个更加平衡的多字符名单性别确认数据集和代码，以促进性别平等的相关研究。

Feb, 2023

面向性别偏见研究中被性别认同错误的中国人：基于拼音姓名性别预测的多任务学习与知识蒸馏

通过使用多任务学习网络和知识蒸馏方法，我们提供了一种基于汉字的拼音姓名性别猜测解决方案，可以有效地解决当前用于汉字拼音姓名的性别推测工具准确率不高的问题。我们的方法相对于商业性别猜测工具提高了 9.70% 至 20.08%，并且在性能上优于现有的技术算法。

May, 2024

男性对应个人，女性对应地点：命名实体识别中测量性别偏见

该论文研究了现有几种命名实体识别模型的偏见，特别是在将男性和女性姓名识别为人名实体中存在的差异。该研究评估了包含 139 年美国人口普查婴儿姓名的数据集上的 NER 模型，并发现相对较多的女性姓名未被识别为人名实体。作者还研究了这种偏差在几个业界和学术界中广泛使用的 NER 系统中的程度，并报告了这些模型的训练数据集中存在的偏见。该分析的结果产生了一个新的用于命名实体识别系统中性别偏见评估的基准。该基准的数据和代码将公开提供给研究人员使用。

Oct, 2019

性别推断：ChatGPT 能否胜过常见商业工具？

本研究比较了一个生成式人工智能工具 ChatGPT 与三个商业可用的基于列表和机器学习的性别推断工具（Namsor、Gender-API 和 genderize.io）在一个独特数据集上的性能表现，结果显示 ChatGPT 在有国家和 / 或姓氏信息可用时，表现至少与 Namsor 相当，并在女性样本上表现更好。尽管 ChatGPT 并非为此目的设计，但它可能是一种性别预测的成本效益工具，未来甚至可能更好地识别自报性别而不是以二进制标度报告性别。

Nov, 2023

多维度性别偏见分类

本论文提出了一个对自然语言文本中的性别偏见进行分解的通用框架，通过多维度的性别偏见分类器可以控制生成模型性别偏差的问题，检测任意文本中的性别偏见，并揭示与性别相关的冒犯性语言。

May, 2020

基于在线数据库的词汇性别推理方法研究

本文介绍了一种自动检测大型语言数据集中具有词汇性别的单词的新方法，以解决手动编译性别化表达的词汇列表的静态问题和无法在分析范围之内的单词问题。该方法是基于字典的，可提供动态的、更新至最新的高覆盖分析，并在随机可获取的维基百科示例中达到了 80％的准确率，在以前的研究中使用的性别化词汇列表测试时也表现良好。

Jun, 2022

基于 GeNTE 语料库的性别中性机器翻译基准测试

我们的研究主要关注从英语到意大利语的性别中性翻译，通过提出专门的基准和探索自动评估方法来满足包容性语言的不断增长的需求。我们介绍了 GeNTE，这是一个自然、双语的性别中性翻译测试集，其创建受到有关中性语言感知和使用的调查的启发。基于 GeNTE，我们概述了现有的基于参考的评估方法，突出了它们的局限性，并提出了一种更适合评估性别中性翻译的无参考方法。

Oct, 2023

从印度姓名解读人口不公平现象

本研究旨在使用三个数据库培训最先进的性别和种姓分类器，针对性别和种姓的复杂人口分布布局，对现有系统进行偏差评估和错误分析。

Sep, 2022

神经机器翻译中的性别转换筛选

本文研究了最先进的机器翻译系统中的信息流，以将法语翻译成英语时的性别转移为例。通过实验控制的示例，我们尝试多种方法来研究性别信息如何在编码器 - 解码器架构中循环传播，包括探测技术以及对 MT 系统中使用的内部表示形式的干预。结果表明，性别信息可以在编码器和解码器构建的所有标记表示中找到，并且导致我们得出结论，即存在多个性别转移的路径。

Feb, 2022