一个优雅的桥梁:多语言LLM在不同语言中的偏见相似
本文介绍了一种生成潜在变量模型,用于量化形容词(或动词)选用及其情感,并以头(或依赖)名词的自然性别为条件。研究发现男女名词描述之间存在显著差异,并且这些差异与常见的性别刻板印象相一致:用于描述女性的积极形容词更与其身体相关而不是用于描述男性的形容词。
Jun, 2019
该研究提出了一种新的度量标准来评估西班牙语和法语等语言中的词嵌入性别偏见,并进一步证明了双语词嵌入与英文词嵌入存在性别偏见的一致性。同时作者还提供了一种新的方法用于缓解这种偏见。实验结果表明这些方法有效地减少了性别偏见,同时也保持了嵌入向量的实用性。
Sep, 2019
研究发现,语义的向量空间模型存在人类文化中不良偏见的问题,特别是主题性别偏见交互作用,并被语法性别偏见效应超过;同时,这些偏见可以通过语料库词形还原得以减轻,这对机器翻译等下游应用有重要的启示。
May, 2020
研究发现,先前对自然语言处理中性别偏见的研究过于专注于英语,而忽略了其他语言的机会。该研究构建了多语言、多任务的挑战数据集,跨越四种语言和四种NLP任务,以探测类型B反身代词语言中的性别偏见。研究发现几乎所有任务-语言组合都存在性别偏见,模型偏见与国家劳动力市场统计数据高度相关。
Sep, 2020
本文调查了304篇关于自然语言处理中的性别偏见的论文,分析了社会科学中性别及其类别的定义,并将其与自然语言处理中性别偏见的正式定义联系起来,概述了应用于性别偏见研究的词汇和数据集,并比较和对比了检测和缓解性别偏见的方法。我们发现性别偏见研究存在四个核心限制,提出了解决这些限制的建议作为未来研究的指南。
Dec, 2021
这项研究探讨在多语言环境中评估和减少性别偏见在语言模型中的挑战,并通过 DisCo 扩展到不同的印度语言来创建了一个评估预训练屏蔽语言模型中性别偏见的基准,同时评估了各种方法对 SOTA 大规模多语言模型减轻此类偏见的有效性。
Jul, 2023
通过对四个最近发表的大型语言模型进行测试,我们发现大型语言模型在性别刻板印象、职业偏见和句子结构等方面表现出偏见,它们更倾向于选择与性别刻板印象相关的职业,并且在提供自己选择的解释时常常存在事实错误,对于这些模型的偏见行为,我们需要谨慎测试以确保它们对待边缘化个体和社区是公平的。
Aug, 2023
我们研究了不同语言中大型语言模型生成的输出中的性别偏见,通过三项测量方法评估性别相关背景下选择描述性词语的性别偏见、选择性别相关代词(她/他)的性别偏见以及生成对话的主题的性别偏见。我们的研究表明,在我们调查的所有语言中都存在显著的性别偏见。
Mar, 2024
大型语言模型(LLMs)具有卓越的性能,在各种自然语言处理(NLP)任务中表现出色。本文通过一种新颖的基于特征的分析方法研究了LLMs内部偏见的传播。我们的发现揭示了LLMs中偏见的复杂性质并强调了定制的去偏方法的必要性,为有效缓解偏见机制和途径提供了更深入的理解。
Jun, 2024
该论文介绍了一种利用大型语言模型对西班牙语语料库进行定量分析性别表达的新方法,通过识别和分类与人类实体相关的具有性别特征的名词和代词,揭示了四个广泛使用的基准数据集中存在的显著性别差异,从男性到女性的比例范围从4:1到6:1,这些发现证明了我们方法在性别语言中进行偏见量化的价值,并建议在自然语言处理中应用该方法,为更公平的语言技术发展做出贡献。
Jun, 2024