词嵌入中性别偏见对抑郁症预测的影响
研究分析了临床词嵌入在三个医疗类别中(精神疾病,性传播疾病和人格特征)的性别偏见。结果显示,临床词嵌入对一些医学术语和疾病存在高度偏见, BioWordVec 对于所有三个类别的偏见高于 clinical-BERT。所有这些可能会对使用临床词嵌入的下游应用程序造成伤害。
Aug, 2022
研究表明,预训练词嵌入可能会的继承训练数据的性别偏见,并探究这种偏见如何影响职业分类任务。该文案例研究发现,传统的去偏方法可能会导致下游分类器的偏见恶化,但我们提出了一种相对较小的调整方法来同时减少偏见并保持高分类精度。
Aug, 2019
研究在数据量少的情况下,如何利用数据增强方法,将大规模预训练语料库中的词向量嵌入模型与特定领域语料库中的词向量嵌入模型相结合,以提高在抑郁语言检测任务中的表现,结果显示该数据增强方法可以显著提高模型性能。
Jun, 2021
研究发现,英语语料库中的统计规律将社会中已知的性别偏见编码为词嵌入中的群体偏见。使用单类别词嵌入关联测试,作者发现广泛存在性别偏差,这些偏差在词频、词性标记、语义类别和情绪情感方面均有所不同。男性更倾向于与技术、工程、宗教、体育和暴力等概念相关联,而女性则偏向于涉及外观和厨房等领域。同时,男性相关的词汇具有更强的情绪唤起和主导性,而女性相关的词汇则更加温馨。
Jun, 2022
本文中,我们量化、分析和减轻了 ELMo 上表现的性别偏见。通过内在分析和实验,我们发现 ELMo 的训练数据中包含男性实体比女性实体多,其编码的词向量中存在性别信息,且男性和女性实体所包含的性别信息不平等。同时,我们发现最前沿的指代消解系统很大程度上依赖 ELMo,继承了 ELMo 的性别偏见,表现出显著的偏见,我们探索了两种减轻这种性别偏见的方法,并展示了这种在 WinoBias 数据集上表现出的偏见可以被消除。
Apr, 2019
本研究使用 Word Embeddings Association Test (WEAT)、Clustering 和 Sentence Embeddings Association Test (SEAT) 等方法,衡量荷兰语词嵌入中的性别偏见,并使用 Hard-Debias 和 Sent-Debias 调控方法,探索性别偏见对下游任务的影响。结果表明,传统和上下文嵌入中存在性别偏见,研究人员提供了翻译荷兰语数据集和减轻偏误的嵌入。
Oct, 2020
该研究提出了一种针对 word embeddings 中性别偏见问题的去偏方法,通过保留与性别相关、非歧视性别信息的同时,去除预先训练好的 word embeddings 中的刻板性别歧视偏差,实验结果表明该方法在保留性别相关但非歧视性别信息的同时,能够更好地去偏,适用于一系列 benchmark 数据集和 NLP 应用。
Jun, 2019