跨语言词嵌入中,语法性别联系高于主题性别偏见
研究发现,英语语料库中的统计规律将社会中已知的性别偏见编码为词嵌入中的群体偏见。使用单类别词嵌入关联测试,作者发现广泛存在性别偏差,这些偏差在词频、词性标记、语义类别和情绪情感方面均有所不同。男性更倾向于与技术、工程、宗教、体育和暴力等概念相关联,而女性则偏向于涉及外观和厨房等领域。同时,男性相关的词汇具有更强的情绪唤起和主导性,而女性相关的词汇则更加温馨。
Jun, 2022
该研究提出了一种新的度量标准来评估西班牙语和法语等语言中的词嵌入性别偏见,并进一步证明了双语词嵌入与英文词嵌入存在性别偏见的一致性。同时作者还提供了一种新的方法用于缓解这种偏见。实验结果表明这些方法有效地减少了性别偏见,同时也保持了嵌入向量的实用性。
Sep, 2019
研究发现,语言的语法性别可能会影响词嵌入的性别信息,提出了一种后处理方法来度量、分离和评价语法性别信号,检验发现此方法有效地减少了法语、德语、意大利语的效应量,并认为分离语法性别信号可以提高语义机器学习任务的性能。
Jun, 2022
本研究关注多语言词向量中的性别偏见对迁移学习的影响,并提出了量化多语言词向量性别偏差的方法。结果表明,不同目标空间上的多语言词向量性别偏差受到不同的影响,对于下游任务的使用提供建议。
May, 2020
该研究对分布式词向量空间中的偏见效应进行了系统性分析,研究表明:偏见效应在不同的词向量模型、文本类型和语言之间是不一致的,同时,双语词向量空间中的跨语言偏见也是存在的。该研究以期促进自然语言处理中的偏见研究,为偏见缓解技术的发展提供帮助。
Apr, 2019
利用上下文词嵌入的概念投射方法,量化了英语语言模型中社会群体的情感倾向,发现语言模型对性别认同、社会阶级和性取向的信号表现出最有偏见的态度,此方法旨在研究语言模型中的历史偏见,并对设计正义做出贡献,探讨了在语言中被边缘化的群体的相关关系。
Jul, 2023
通过提出一种基于因果推断框架的新方法来有效消除性别偏见,该方法可以在保留嵌入式语义信息的同时构建和分析性别信息流的复杂因果机制,从而在性别去偏任务中取得最新的技术结果。
Dec, 2021
本研究提出了一种基于统计依存关系的方法来消除词向量关系中的性别偏差,有效避免了词向量关系中存在的性别偏见问题,并在多个联想任务中实现了最先进的结果。
Nov, 2019