人口属性和标记长度对名字偏见的影响:尼谢尔和南希
本研究旨在检验语言模型中名字对常识推理能力的影响,并提出了可控性实验框架和解释分析来证明了首次提出的假设,即一般的常识推理与他们所用的人名无关,结果显示人名的频次对模型的预测产生了不同的影响,并建议在数据集配置阶段增加更多多样性的人名以确保模型的健壮性。
Jun, 2023
个人姓名同时区分个体并按一定方式进行分类,这对于一个特定的社会来说非常重要。然而,自然语言处理领域在不同任务中将个人姓名与社会人口特征联系起来时,研究人员在解决方法学上的问题上参与程度不同。为了指导未来工作,我们提供了有关姓名和命名的跨学科背景知识。然后,我们调查了将姓名与社会人口属性相关联的问题,包括有效性问题(如系统误差、构造效度)以及伦理关切(如危害、差异影响、文化不敏感性)。最后,我们提供了引导性问题和规范建议,以避免在处理自然语言处理中的姓名和社会人口特征时的有效性和伦理问题。
May, 2024
通过减少个人名称的词嵌入与真实职业预测概率的相关性,以消除词嵌入中所编码的社会偏见,提出了一种方法,无需访问受保护属性,仅在训练期间需要访问个人名称,从而在职业分类中减少种族和性别偏见。
Apr, 2019
通过合成语料库评估英文命名实体识别系统在不同人口群体中的偏差,结果表明模型更擅长识别两个数据集中特定人口群体的姓名,并且去偏向嵌入无法解决这个问题,最终结果表明基于字符的上下文词表示模型,例如 ELMo,跨人口群体的偏差最小。这项工作可以揭示由于在自动化知识库生成中系统性排除某些人口实体而导致的潜在偏见。
Aug, 2020
本文旨在探究在新型预训练变压器模型下是否也存在特定群体的社会人口因素能够大幅提高自然语言处理任务性能的情形,研究使用领域特定知识等有效的特化方法对性别和年龄这两个社会人口维度进行了适应,通过语言建模和动态多任务学习的组合,将语言表示出社会人口类别的预测,并在英语、德语、法语和丹麦语等四种语言中得到明显的提升,但是,实验结果表明,需要解决领域和语言等诸多影响因素所带来的困扰,才能权衡全面考虑社会人口因素对 NLP 模型的影响。
Aug, 2022
我们研究了标记化对机器翻译中的性别偏见的影响,着重关注训练数据中性别化职业名称频率、它们在次词标记器词汇表中的表示以及性别偏见之间的相互作用。
Sep, 2023
通过层次概括、基于阈值的增强和层次概括与阈值增强方法相结合等三种方法,提高了常识极化分类器的性能和效果,减轻了人口统计术语对 NLP 模型性能的影响。
Jun, 2024
研究人口因素如何影响语言,使用预先训练的转换器语言模型通过多任务学习适应语言表示,结果表明人口统计特征对 PLMs 的效果不明显。
Oct, 2022
该研究提出了使用深度学习技术对姓名进行分析,从而更准确地估计美国选民的种族和族裔背景。作者使用了佛罗里达州选民登记数据和维基百科数据来训练长短时记忆网络,结果表明融合全名信息的模型比仅考虑姓氏的模型更准确。该方法可以应用于竞选捐款数据等领域,有助于研究种族平等问题。
May, 2018
快速增长的自然语言处理在各种社会技术解决方案中的使用和应用突显了对偏见及其对社会的影响的全面理解的需求。虽然 NLP 中的偏见研究得到了扩展,但仍存在一些需要关注的挑战,包括有限地关注种族和性别以外的社会人口偏见、主要集中在模型上的狭窄分析范围,以及技术为中心的实施方法。本文解决了这些挑战,并倡导一种更加跨学科的方式来理解 NLP 中的偏见。该工作分为三个方面,每个方面探索 NLP 中的特定偏见方面。
Aug, 2023