多语种性别偏见探测的视角
本文调查了 304 篇关于自然语言处理中的性别偏见的论文,分析了社会科学中性别及其类别的定义,并将其与自然语言处理中性别偏见的正式定义联系起来,概述了应用于性别偏见研究的词汇和数据集,并比较和对比了检测和缓解性别偏见的方法。我们发现性别偏见研究存在四个核心限制,提出了解决这些限制的建议作为未来研究的指南。
Dec, 2021
本研究关注多语言词向量中的性别偏见对迁移学习的影响,并提出了量化多语言词向量性别偏差的方法。结果表明,不同目标空间上的多语言词向量性别偏差受到不同的影响,对于下游任务的使用提供建议。
May, 2020
通过对自然、性别敏感的 MuST-SHE 语料库进行 POS 和一致性链的语言学注释,在英法 / 意大利语 / 西班牙语三种语言方向上针对不同数量的数据和不同的词语分割技术进行多方面评估,揭示了性别偏见的模型行为,及其在多个细粒度层次上的检测价值。
Mar, 2022
本文为首次针对印度的印地语进行的性别偏见全面研究,通过采用多种挖掘技术、计算模型和实地研究,并揭示了当前方法的局限性。通过涉及农村和低收入社区妇女的现场研究,我们揭示了性别偏见的多样化认知,强调了针对具体情境的方法的必要性。本文主张以社区为中心的研究设计,扩大先前研究中常常被边缘化的声音。我们的研究不仅有助于理解印地语中的性别偏见,而且为进一步探索印度语言奠定了基础。通过探索这个未被深入研究的语境的复杂性,我们呼吁在超越全球北方的语言和文化背景中以思慎的方式参与性别偏见,促进包容性和公平性。
May, 2024
该研究回顾了近 200 篇关于 NLP 中有关性别偏见的文章,发现大部分文章没有明确说明他们如何理解性别,甚至没有使用包容性的模型,对非二元性别人群的存在和经验忽视,提出建议以便在 NLP 研究中融入女性学理论和方法,以期实现更加包容的性别偏见研究。
May, 2022
该论文介绍了一种利用大型语言模型对西班牙语语料库进行定量分析性别表达的新方法,通过识别和分类与人类实体相关的具有性别特征的名词和代词,揭示了四个广泛使用的基准数据集中存在的显著性别差异,从男性到女性的比例范围从 4:1 到 6:1,这些发现证明了我们方法在性别语言中进行偏见量化的价值,并建议在自然语言处理中应用该方法,为更公平的语言技术发展做出贡献。
Jun, 2024
通过问卷调查 537 人得出结论,语言作为我们思维、偏见和文化刻板印象的反映。研究分析中发现了性别刻板印象的存在,特别是在定义男女角色时出现的,结果可作为理解刻板印象和期望对于不平等和惩罚产生的作用的起点。
Jul, 2020
该研究的主要贡献是,通过收集、注释和增强相关句子以促进检测英文文本中的性别偏见,公开提供已标记的数据集和详尽的词汇表,其中所包含的偏见子类型包括:通用他,通用她,明确标记性别和性别新词。同时,利用词嵌入模型进一步增强了所收集的词汇表。
Jan, 2022