基于在线数据库的词汇性别推理方法研究

ACLJun, 2022

基于在线数据库的词汇性别推理方法研究

Towards Lexical Gender Inference: A Scalable Methodology using Online Databases

Marion Bartl, Susan Leavy

TL;DR本文介绍了一种自动检测大型语言数据集中具有词汇性别的单词的新方法，以解决手动编译性别化表达的词汇列表的静态问题和无法在分析范围之内的单词问题。该方法是基于字典的，可提供动态的、更新至最新的高覆盖分析，并在随机可获取的维基百科示例中达到了 80％的准确率，在以前的研究中使用的性别化词汇列表测试时也表现良好。

Abstract

This paper presents a new method for automatically detecting words with lexical gender in large-scale language datasets. Currently, the evaluation of gender bias in →

lexical gender natural language processing gender bias lexicons dictionary-based method

发现论文，激发创造

文本中的性别偏见：标记数据集和词库

该研究的主要贡献是，通过收集、注释和增强相关句子以促进检测英文文本中的性别偏见，公开提供已标记的数据集和详尽的词汇表，其中所包含的偏见子类型包括：通用他，通用她，明确标记性别和性别新词。同时，利用词嵌入模型进一步增强了所收集的词汇表。

Jan, 2022

利用大型语言模型衡量性别化语言中的性别偏见

该论文介绍了一种利用大型语言模型对西班牙语语料库进行定量分析性别表达的新方法，通过识别和分类与人类实体相关的具有性别特征的名词和代词，揭示了四个广泛使用的基准数据集中存在的显著性别差异，从男性到女性的比例范围从 4:1 到 6:1，这些发现证明了我们方法在性别语言中进行偏见量化的价值，并建议在自然语言处理中应用该方法，为更公平的语言技术发展做出贡献。

Jun, 2024

自然语言处理中的性别偏见调查

本文调查了 304 篇关于自然语言处理中的性别偏见的论文，分析了社会科学中性别及其类别的定义，并将其与自然语言处理中性别偏见的正式定义联系起来，概述了应用于性别偏见研究的词汇和数据集，并比较和对比了检测和缓解性别偏见的方法。我们发现性别偏见研究存在四个核心限制，提出了解决这些限制的建议作为未来研究的指南。

Dec, 2021

自然语言推断中的性别偏见评估

本文提出了一种评估方法来测量天生的性别偏见，其通过构建一项挑战任务，通过将性别中性前提与性别具体假设进行配对的方式来进行。研究发现，许多先进的 NLI 模型在使用职业数据集进行训练时会因性别偏见而出现错误，但通过通过扩充训练数据集来确保性别平衡，可以在某些情况下帮助减少此类偏差。

May, 2021

从语言中自动推断性别联想

本研究通过语言自动推断性别关联发现单词聚类，并针对其所代表的语义概念进行标记，并比较了两个不同领域写作中人们如何谈论妇女和男子之间的差异，证明了人们谈论妇女和男子的方式存在大规模差异，并且这些差异在不同领域中有所不同。

Aug, 2019

可扩展的跨语言支枢词建模代词性别用于翻译

本研究提出了一种基于跨语言枢轴技术的新颖方法，用于自动生成高质量的性别标签，并展示了这些数据可用于微调 BERT 分类器，该分类器对于西班牙语中丢失的女性代词具有 92％的 F1，相比之下，神经机器翻译模型和非微调 BERT 模型分别为 30-51% 和 54-71％。我们使用来自我们分类器的标签来增强神经机器翻译模型以改进代词翻译，同时仍具有可并行化的翻译模型，可以逐句翻译。

Jun, 2020

为指代消解和机器翻译收集大规模性别偏置数据集

通过寻找语法模式，我们在三个领域的语料库中发现了暗示刻板印象和非刻板印象的性别角色分配（例如女护士与男舞者），并发布了首个包含 108k 多样化英语句子的大规模性别偏见数据集，使用它来评估各种指代解析和机器翻译模型中的性别偏见，发现所有测试模型在处理自然输入时都倾向于过度依赖性别刻板印象。我们的数据集和模型都在 www.github.com/SLAB-NLP/BUG 上公开，希望它们能在实际环境中促进未来的性别偏见评估和缓解技术研究。

Sep, 2021

评测性别中性代词的翻译性别偏见

本研究提出了一种用于评估机器翻译系统性别偏见的测试集方案，并构建了一组既不带有偏见性别也不过度偏向一侧的词组，然后通过该方案评估了传统机器翻译系统的性别偏见。

May, 2019

大型语言模型中的性别偏见

我们研究了不同语言中大型语言模型生成的输出中的性别偏见，通过三项测量方法评估性别相关背景下选择描述性词语的性别偏见、选择性别相关代词（她 / 他）的性别偏见以及生成对话的主题的性别偏见。我们的研究表明，在我们调查的所有语言中都存在显著的性别偏见。

Mar, 2024

多维度性别偏见分类

本论文提出了一个对自然语言文本中的性别偏见进行分解的通用框架，通过多维度的性别偏见分类器可以控制生成模型性别偏差的问题，检测任意文本中的性别偏见，并揭示与性别相关的冒犯性语言。

May, 2020