第二次审视的偏见:对德国教育同行评审数据建模偏见的深入挖掘
本文针对大型预训练语言模型中的偏差问题进行调研,分析了偏差发生在模型的哪些阶段以及如何量化和减轻影响。尤其是针对情感相关的偏差问题进行了探讨,旨在提供未来研究的参考和挑战。
Apr, 2022
本研究探讨了预训练语言模型在不同语言中所存在的偏见,提出了一种基于句子假设度量的模板方法来检测偏见,通过该方法分析了每个单语模型。研究发现,检测偏见的方法高度依赖于语言和文化,需要对每种语言和文化的独特表达方式进行深入了解。而与此相关的,我们假设非英语 BERT 模型中更高的社会偏见指数与其训练的用户生成内容有关。
Nov, 2022
本文利用自然语言生成中存在的偏见漏洞,探索了六个不同在线社区的偏见。通过对 GPT-Neo 1.3B 进行精细调整,该文评估了生成模型的偏见,并通过不同的人口属性来比较情感和毒性价值,从而揭示了各种模型的偏见类型和强度的差异。此外,本文所生成的示例还展示了在偏见研究中使用自动情感和毒性分类器的局限性。
Jun, 2023
本文研究了神经自然语言处理系统是否反映了训练数据中的历史偏见。通过定义量化神经自然语言处理任务中的性别偏见的基准测试,实证研究发现目前最先进的神经语言模型和基于基准数据集的循环神经网络在职业看待上存在显著的性别偏见。作者提出了一种基于因果干预的语料库增强通用方法,CDA,以减轻偏见而保留矫正前的准确性。作者发现 CDA 优于词嵌入去偏的先前方法,尤其是在词嵌入训练时;对于预先训练的嵌入,两种方法可以被有效地组合。作者还发现原始数据集在优化时会鼓励性别偏见增加;而 CDA 可以缓解这种行为。
Jul, 2018
研究旨在探讨最新的预训练模型中是否比旧模型更负责任地发展,以便降低固有的社会偏见以及探究三个最近的模型(ELECTRA,DeBERTa 和 DistilBERT)在减少偏见方面的总体趋势。实验比较这些模型与基准 BERT 的关联指标,并发现所有研究对象都存在有偏差,但完整指标相对于 BERT 有所提高。
Apr, 2023
本研究探索了大语言模型的嵌入和几何模型对偏见建模准确度的影响,利用 RedditBias 数据库分析文本偏见,在偏见分类上,BERT,尤其是迷你 BERT,表现出色,而多语言模型则表现较差。研究建议改进单语模型,并探索领域特定的偏见。
Nov, 2023
通过系统地分析使用不同语言、单语和多语模型、不同架构的偏向性,扩展了评估预训练英语语言模型中的刻板偏见的研究范围,发现在多语言环境下分析是非常重要的,并且公布了代码库以及翻译数据集的实用指南以鼓励将我们的工作进一步扩展到其他语言。
Jul, 2023
本研究使用 Word Embeddings Association Test (WEAT)、Clustering 和 Sentence Embeddings Association Test (SEAT) 等方法,衡量荷兰语词嵌入中的性别偏见,并使用 Hard-Debias 和 Sent-Debias 调控方法,探索性别偏见对下游任务的影响。结果表明,传统和上下文嵌入中存在性别偏见,研究人员提供了翻译荷兰语数据集和减轻偏误的嵌入。
Oct, 2020