第二次审视的偏见：对德国教育同行评审数据建模偏见的深入挖掘

COLINGSep, 2022

第二次审视的偏见：对德国教育同行评审数据建模偏见的深入挖掘

Bias at a Second Glance: A Deep Dive into Bias for German Educational Peer-Review Data Modeling

Thiemo Wambsganss, Vinitra Swamy, Roman Rietsche, Tanja Käser

TL;DR本文基于德文语料库的数据集，在多个体系结构中通过词嵌入联想测试（WEAT）分析了预先训练的德语语言模型的偏见，发现这些语言模型存在实质性的概念、种族和性别偏见，并且在同伴评审数据的微调中，偏见在概念和种族轴上有显着变化。

Abstract

natural language processing (NLP) has become increasingly utilized to provide adaptivity in educational applications. However, recent research has highlighted a variety of biases in →

natural language processing educational applications bias analysis pre-trained language models german corpus

发现论文，激发创造

关于预训练神经语言模型中偏见性的加强理解：一项调查，特别关注情感偏见

本文针对大型预训练语言模型中的偏差问题进行调研，分析了偏差发生在模型的哪些阶段以及如何量化和减轻影响。尤其是针对情感相关的偏差问题进行了探讨，旨在提供未来研究的参考和挑战。

Apr, 2022

大型语言模型中的下游性别偏见揭示：AI 教育写作辅助研究

通过大规模用户研究，评估了大型语言模型在写作支持中存在的偏倚，并发现这些偏倚并不会对学生的写作反馈产生显著影响。

Nov, 2023

分析多种语言 BERT 变体中存在的社会偏见

本研究探讨了预训练语言模型在不同语言中所存在的偏见，提出了一种基于句子假设度量的模板方法来检测偏见，通过该方法分析了每个单语模型。研究发现，检测偏见的方法高度依赖于语言和文化，需要对每种语言和文化的独特表达方式进行深入了解。而与此相关的，我们假设非英语 BERT 模型中更高的社会偏见指数与其训练的用户生成内容有关。

Nov, 2022

通过大规模语言模型揭示网络社区中的偏见

本文利用自然语言生成中存在的偏见漏洞，探索了六个不同在线社区的偏见。通过对 GPT-Neo 1.3B 进行精细调整，该文评估了生成模型的偏见，并通过不同的人口属性来比较情感和毒性价值，从而揭示了各种模型的偏见类型和强度的差异。此外，本文所生成的示例还展示了在偏见研究中使用自动情感和毒性分类器的局限性。

Jun, 2023

大型语言模型中的公平性偏差和去偏差之旅

这篇研究使用变换器语言模型研究了其训练数据所带来的偏见问题，并提出了一种去偏方法，得到的去偏模型在下游任务上保持了良好的表现。

May, 2023

神经自然语言处理中的性别偏见

本文研究了神经自然语言处理系统是否反映了训练数据中的历史偏见。通过定义量化神经自然语言处理任务中的性别偏见的基准测试，实证研究发现目前最先进的神经语言模型和基于基准数据集的循环神经网络在职业看待上存在显著的性别偏见。作者提出了一种基于因果干预的语料库增强通用方法，CDA，以减轻偏见而保留矫正前的准确性。作者发现 CDA 优于词嵌入去偏的先前方法，尤其是在词嵌入训练时；对于预先训练的嵌入，两种方法可以被有效地组合。作者还发现原始数据集在优化时会鼓励性别偏见增加；而 CDA 可以缓解这种行为。

Jul, 2018

评估最近大型预训练模型中的社会偏见

研究旨在探讨最新的预训练模型中是否比旧模型更负责任地发展，以便降低固有的社会偏见以及探究三个最近的模型（ELECTRA，DeBERTa 和 DistilBERT）在减少偏见方面的总体趋势。实验比较这些模型与基准 BERT 的关联指标，并发现所有研究对象都存在有偏差，但完整指标相对于 BERT 有所提高。

Apr, 2023

文本中当前的拓扑和机器学习应用于偏见检测

本研究探索了大语言模型的嵌入和几何模型对偏见建模准确度的影响，利用 RedditBias 数据库分析文本偏见，在偏见分类上，BERT，尤其是迷你 BERT，表现出色，而多语言模型则表现较差。研究建议改进单语模型，并探索领域特定的偏见。

Nov, 2023

不同语言中的典型偏见有多大差异？

通过系统地分析使用不同语言、单语和多语模型、不同架构的偏向性，扩展了评估预训练英语语言模型中的刻板偏见的研究范围，发现在多语言环境下分析是非常重要的，并且公布了代码库以及翻译数据集的实用指南以鼓励将我们的工作进一步扩展到其他语言。

Jul, 2023

荷兰语词嵌入的偏差评估

本研究使用 Word Embeddings Association Test (WEAT)、Clustering 和 Sentence Embeddings Association Test (SEAT) 等方法，衡量荷兰语词嵌入中的性别偏见，并使用 Hard-Debias 和 Sent-Debias 调控方法，探索性别偏见对下游任务的影响。结果表明，传统和上下文嵌入中存在性别偏见，研究人员提供了翻译荷兰语数据集和减轻偏误的嵌入。

Oct, 2020