从语言中自动推断性别联想

Aug, 2019

Automatically Inferring Gender Associations from Language

Serina Chang, Kathleen McKeown

TL;DR本研究通过语言自动推断性别关联发现单词聚类，并针对其所代表的语义概念进行标记，并比较了两个不同领域写作中人们如何谈论妇女和男子之间的差异，证明了人们谈论妇女和男子的方式存在大规模差异，并且这些差异在不同领域中有所不同。

Abstract

In this paper, we pose the question: do people talk about women and men in different ways? We introduce two datasets and a novel integration of approaches for automatically inferring gender associations from language

gender associations language word clusters semantic concepts domain differences

发现论文，激发创造

基于潜变量建模的无监督发现性别化语言

本文介绍了一种生成潜在变量模型，用于量化形容词（或动词）选用及其情感，并以头（或依赖）名词的自然性别为条件。研究发现男女名词描述之间存在显著差异，并且这些差异与常见的性别刻板印象相一致：用于描述女性的积极形容词更与其身体相关而不是用于描述男性的形容词。

Jun, 2019

文本中的性别偏见：标记数据集和词库

该研究的主要贡献是，通过收集、注释和增强相关句子以促进检测英文文本中的性别偏见，公开提供已标记的数据集和详尽的词汇表，其中所包含的偏见子类型包括：通用他，通用她，明确标记性别和性别新词。同时，利用词嵌入模型进一步增强了所收集的词汇表。

Jan, 2022

基于在线数据库的词汇性别推理方法研究

本文介绍了一种自动检测大型语言数据集中具有词汇性别的单词的新方法，以解决手动编译性别化表达的词汇列表的静态问题和无法在分析范围之内的单词问题。该方法是基于字典的，可提供动态的、更新至最新的高覆盖分析，并在随机可获取的维基百科示例中达到了 80％的准确率，在以前的研究中使用的性别化词汇列表测试时也表现良好。

Jun, 2022

自然语言处理中的性别偏见调查

本文调查了 304 篇关于自然语言处理中的性别偏见的论文，分析了社会科学中性别及其类别的定义，并将其与自然语言处理中性别偏见的正式定义联系起来，概述了应用于性别偏见研究的词汇和数据集，并比较和对比了检测和缓解性别偏见的方法。我们发现性别偏见研究存在四个核心限制，提出了解决这些限制的建议作为未来研究的指南。

Dec, 2021

社交媒体中的性别认同与词汇变化

本文通过 Twitter 用户语言风格和社交网络之间的关系，探讨了性别、语言风格和社交网络之间的关系，提出了一种细致的性别分类方法，发现语言风格与社交网络之间的同性别联系紧密相关。

Oct, 2012

利用大型语言模型衡量性别化语言中的性别偏见

该论文介绍了一种利用大型语言模型对西班牙语语料库进行定量分析性别表达的新方法，通过识别和分类与人类实体相关的具有性别特征的名词和代词，揭示了四个广泛使用的基准数据集中存在的显著性别差异，从男性到女性的比例范围从 4:1 到 6:1，这些发现证明了我们方法在性别语言中进行偏见量化的价值，并建议在自然语言处理中应用该方法，为更公平的语言技术发展做出贡献。

Jun, 2024

从姓名推断性别：一项大规模性能评估研究

通过大规模性能评估现有的姓名 - 性别推测方法，并提出两种新的混合方法，以取得比任何单一现有方法更好的性能。

Aug, 2023

多维度性别偏见分类

本论文提出了一个对自然语言文本中的性别偏见进行分解的通用框架，通过多维度的性别偏见分类器可以控制生成模型性别偏差的问题，检测任意文本中的性别偏见，并揭示与性别相关的冒犯性语言。

May, 2020

自然语言推断中的性别偏见评估

本文提出了一种评估方法来测量天生的性别偏见，其通过构建一项挑战任务，通过将性别中性前提与性别具体假设进行配对的方式来进行。研究发现，许多先进的 NLI 模型在使用职业数据集进行训练时会因性别偏见而出现错误，但通过通过扩充训练数据集来确保性别平衡，可以在某些情况下帮助减少此类偏差。

May, 2021

无监督发现隐性性别偏见

本文提出了一种无监督的方法，通过倾向匹配和对抗性学习来降低混淆，并着重于展现隐含的性别偏见，并揭示了针对女性政治家的有偏见评论包含各种批评，而针对其他女性公众人物的评论则集中于外貌和性感方面。最终，我们的工作提供了一种在各个领域捕捉微妙偏见的方法，而无需依赖主观的人类判断。

Apr, 2020