人口属性和标记长度对名字偏见的影响：尼谢尔和南希

ACLMay, 2023

人口属性和标记长度对名字偏见的影响：尼谢尔和南希

Nichelle and Nancy: The Influence of Demographic Attributes and Tokenization Length on First Name Biases

Haozhe An, Rachel Rudinger

TL;DR这篇论文通过使用名字替代实验，探讨社会常识推理模型在种族、民族和性别等维度上表现出社会偏见的趋势，并发现名字的人口统计属性和标记长度等因素可能影响模型行为。

Abstract

Through the use of first name substitution experiments, prior research has demonstrated the tendency of social commonsense reasoning models to systematically exhibit →

social commonsense reasoning models social biases first name substitution experiments demographic attributes tokenization length

发现论文，激发创造

探究姓氏对语言模型的因果效应：以社交常识推理为例

本研究旨在检验语言模型中名字对常识推理能力的影响，并提出了可控性实验框架和解释分析来证明了首次提出的假设，即一般的常识推理与他们所用的人名无关，结果显示人名的频次对模型的预测产生了不同的影响，并建议在数据集配置阶段增加更多多样性的人名以确保模型的健壮性。

Jun, 2023

停！瑕疵之名: NLP 中解析个人姓名和社会人口属性

个人姓名同时区分个体并按一定方式进行分类，这对于一个特定的社会来说非常重要。然而，自然语言处理领域在不同任务中将个人姓名与社会人口特征联系起来时，研究人员在解决方法学上的问题上参与程度不同。为了指导未来工作，我们提供了有关姓名和命名的跨学科背景知识。然后，我们调查了将姓名与社会人口属性相关联的问题，包括有效性问题（如系统误差、构造效度）以及伦理关切（如危害、差异影响、文化不敏感性）。最后，我们提供了引导性问题和规范建议，以避免在处理自然语言处理中的姓名和社会人口特征时的有效性和伦理问题。

May, 2024

名字有什么作用？在无法访问受保护属性的情况下减少生物学的偏见

通过减少个人名称的词嵌入与真实职业预测概率的相关性，以消除词嵌入中所编码的社会偏见，提出了一种方法，无需访问受保护属性，仅在训练期间需要访问个人名称，从而在职业分类中减少种族和性别偏见。

Apr, 2019

评估命名实体识别中的人口统计偏见

通过合成语料库评估英文命名实体识别系统在不同人口群体中的偏差，结果表明模型更擅长识别两个数据集中特定人口群体的姓名，并且去偏向嵌入无法解决这个问题，最终结果表明基于字符的上下文词表示模型，例如 ELMo，跨人口群体的偏差最小。这项工作可以揭示由于在自动化知识库生成中系统性排除某些人口实体而导致的潜在偏见。

Aug, 2020

Transformer 模型在社会人口调整中的局限性

本文旨在探究在新型预训练变压器模型下是否也存在特定群体的社会人口因素能够大幅提高自然语言处理任务性能的情形，研究使用领域特定知识等有效的特化方法对性别和年龄这两个社会人口维度进行了适应，通过语言建模和动态多任务学习的组合，将语言表示出社会人口类别的预测，并在英语、德语、法语和丹麦语等四种语言中得到明显的提升，但是，实验结果表明，需要解决领域和语言等诸多影响因素所带来的困扰，才能权衡全面考虑社会人口因素对 NLP 模型的影响。

Aug, 2022

探索训练数据分布和子词标记对机器翻译中的性别偏见的影响

我们研究了标记化对机器翻译中的性别偏见的影响，着重关注训练数据中性别化职业名称频率、它们在次词标记器词汇表中的表示以及性别偏见之间的相互作用。

Sep, 2023

通过减少人口统计术语的影响来提升常识偏见分类

通过层次概括、基于阈值的增强和层次概括与阈值增强方法相结合等三种方法，提高了常识极化分类器的性能和效果，减轻了人口统计术语对 NLP 模型性能的影响。

Jun, 2024

人口统计因素能否改进文本分类？在 Transformer 时代重访人口统计自适应

研究人口因素如何影响语言，使用预先训练的转换器语言模型通过多任务学习适应语言表示，结果表明人口统计特征对 PLMs 的效果不明显。

Oct, 2022

从姓名中的字符序列预测种族和族裔

该研究提出了使用深度学习技术对姓名进行分析，从而更准确地估计美国选民的种族和族裔背景。作者使用了佛罗里达州选民登记数据和维基百科数据来训练长短时记忆网络，结果表明融合全名信息的模型比仅考虑姓氏的模型更准确。该方法可以应用于竞选捐款数据等领域，有助于研究种族平等问题。

May, 2018

走向一种整体方法：通过跨学科视角理解自然语言处理模型中的社会人口偏差

快速增长的自然语言处理在各种社会技术解决方案中的使用和应用突显了对偏见及其对社会的影响的全面理解的需求。虽然 NLP 中的偏见研究得到了扩展，但仍存在一些需要关注的挑战，包括有限地关注种族和性别以外的社会人口偏见、主要集中在模型上的狭窄分析范围，以及技术为中心的实施方法。本文解决了这些挑战，并倡导一种更加跨学科的方式来理解 NLP 中的偏见。该工作分为三个方面，每个方面探索 NLP 中的特定偏见方面。

Aug, 2023