语言模型的保守程度？如何适应中性代词的引入

ACLApr, 2022

语言模型的保守程度？如何适应中性代词的引入

How Conservative are Language Models? Adapting to the Introduction of Gender-Neutral Pronouns

Stephanie Brandl, Ruixiang Cui, Anders Søgaard

TL;DR研究指出，瑞典语中的性别中立代词与人类的处理没有难度，但在语言计算模型中会导致较高的不确定性、更分散的注意力模式和更劣的下游性能，进而可能限制性别中立代词的广泛应用。

Abstract

gender-neutral pronouns have recently been introduced in many languages to a) include non-binary people and b) as a generic singular. Recent results from →

gender-neutral pronouns non-binary psycholinguistics automated processing language models

发现论文，激发创造

MISGENDERED: 大型语言模型在理解代词方面的局限性

本文探讨了语言技术中的性别偏见问题，提出了一个 MISGENDERED 框架来评估语言模型的性别中性人称的正确使用，发现基于二元性别训练的语言模型在使用非二元人称时普遍存在误差和算法偏差。

Jun, 2023

欢迎来到当代代词世界：超越性别的身份包容型自然语言处理

本文探讨了 NLP 在第三人称代词领域的问题及其对边缘化群体的歧视和影响，提出了对代词建模的伦理准则，并基于此评估了现有和新颖的建模方法，量化了更不具歧视性的方法对基准数据的影响。

Feb, 2022

评测性别中性代词的翻译性别偏见

本研究提出了一种用于评估机器翻译系统性别偏见的测试集方案，并构建了一组既不带有偏见性别也不过度偏向一侧的词组，然后通过该方案评估了传统机器翻译系统的性别偏见。

May, 2019

转换荷兰语：去偏向非二元代词的荷兰语共指消解系统

研究探讨荷兰指代消解系统对中性代词（如 hen 和 die）的性能，比较了两种去偏见技术（CDA 和 delexicalisation）对非二元上下文的指代消解系统的影响，并引入了评估中性代词性能的新度量标准 —— 代词得分。结果显示相较于有性别的对应词，中性代词的性能下降，然而 CDA 大大缩小了有性别和中性代词之间的性能差距，并且在资源有限的情况下仍然有效，证明了以最少资源和低计算成本实现有效去偏见的可行性。

Apr, 2024

不要忘记代词：消除语言模型中的性别偏见，同时保留事实性别信息

本研究探讨大型语言模型中的性别信号，并重点关注英语文本中的两种信号类型：事实性性别信息和性别偏见，在保留事实性性别信号的同时试图减弱刻板印象。研究发现，可以通过过滤方法减少性别中立的专业名称的刻板印象，而不会对语言建模能力造成显着的恶化。这些发现可以应用于语言生成，以缓解对刻板印象的依赖同时保留性别一致的指代。

Jun, 2022

可扩展的跨语言支枢词建模代词性别用于翻译

本研究提出了一种基于跨语言枢轴技术的新颖方法，用于自动生成高质量的性别标签，并展示了这些数据可用于微调 BERT 分类器，该分类器对于西班牙语中丢失的女性代词具有 92％的 F1，相比之下，神经机器翻译模型和非微调 BERT 模型分别为 30-51% 和 54-71％。我们使用来自我们分类器的标签来增强神经机器翻译模型以改进代词翻译，同时仍具有可并行化的翻译模型，可以逐句翻译。

Jun, 2020

如何处理（新）代词：商业机器翻译的失败

本文针对以往自然语言处理领域所忽略的 neopronouns 等全新形式三人称代词使用方式及其对包容性的影响展开探究，特别关注了机器翻译对于被边缘化团体如非二进制人群等的歧视问题。发现中性代词经常导致语法和语义翻译错误，因此提供了针对这些问题的未来研究建议。

May, 2023

评估机器翻译中的性别偏见 -- 以 Google 翻译为例

本文研究了机器偏见和性别偏见，使用性别中性语言对 Google 翻译进行了实验，结果显示翻译的默认性别更偏向于男性，特别是在 STEM 领域中，这种偏见程度远超实际分布，因此需要对当前的统计翻译工具进行偏误纠正。

Sep, 2018

选择引起的撞击器偏差：性别代词不确定性案例研究

本文针对任务欠规范化问题，采用因果术语，并开发了一种在未修改大型语言模型时，对性别和性别中性实体之间的杂波关联进行经验测量的方法，检测了以前未报告的杂波相关性。然后，我们描述了一种轻量级方法，利用由此产生的错误关联进行预测任务的不确定性分类，在 Winogender Schemas 挑战集上实现了超过 90％的准确性。最后，我们推广了我们的方法，以处理更广泛的预测任务，并为此处描述的每种方法提供开源演示。

Sep, 2022

INCLUSIFY：德语性别包容基准和模型

通过结合包含性别漏洞的语言数据库和标准的预训练模型，我们展示了一个实现通过自然语言处理确定性别漏洞的任务的模型，并通过数据基准测试来评估其性能，并建议尝试更多的训练数据以推广性别包容语言。

Dec, 2022