大型语言模型中选择偏差引起的虚假相关性

ICMLJul, 2022

大型语言模型中选择偏差引起的虚假相关性

Selection Bias Induced Spurious Correlations in Large Language Models

Emily McMilin

TL;DR本文探究了大型语言模型在数据选择偏见下如何学习原本条件独立的变量之间的统计依赖关系。为了验证这个效果，我们创建了一个遮掩性别任务，可以应用于 BERT 系列模型来揭示预测性别代词与一系列似乎与性别无关的变量（如日期和位置）之间的虚假相关性，我们展示了预训练（未经修改的）BERT 和 RoBERTa 大型模型的效果，最后，我们提供了一项在线演示，邀请读者进一步实验。

Abstract

In this work we show how large language models (LLMs) can learn statistical dependencies between otherwise unconditionally independent variables due to dataset selection bias. To demonstrate the effect, we develo

large language models dataset selection bias masked gender task spurious correlations bert and roberta models

发现论文，激发创造

大语言模型的选择碰撞器偏差

本文旨在探讨样本选择所导致的碰撞偏差对大型语言模型的影响，描述了一种利用由此产生的错误相关性的方法来确定模型对其预测存在不确定性的不确定度度量，并提出了人类不确定性匹配的不确定度度量，并在网络上提供演示。

Aug, 2022

使用预训练语言模型研究对噪声相关性的鲁棒性

本文通过研究发现，预先训练的语言模型可以通过从少量反例中进行泛化来提高对数据中偶然现象的鲁棒性。当这些少数情况很少时，预训练模型表现与从头开始训练的模型一样差。在极端的少数情况下，我们提出使用多任务学习（MTL）来提高泛化能力。我们在自然语言推断和释义识别上的实验表明，MTL 可显着提高在具有挑战性的情况下的性能，而不会影响分布内性能。此外，我们表明，MTL 带来的增益主要是从极少数情况的改善泛化能力中获得的。我们的结果突显了克服偶然相关性的数据多样性的重要性。

Jul, 2020

掩码语言模型预训练阶段性别偏见出现意外波动

掩蔽语言模型在预训练时会出现性别偏见。我们的研究表明，这些偏见不仅与模型架构和语料库有关，而且还与个别模板的基本层面存在严重波动，这一假设无效。此外，这些波动并不与预测的代词的确定性或预训练语料库中的职业频率相关。我们公开了代码和数据，以造福未来的研究。

Nov, 2022

UnMASKed: 通过语言学知识的职业市场提示量化遮蔽语言模型中的性别偏见

该研究通过评估六个主要的语言模型（BERT，RoBERTa，DistilBERT，BERT-multilingual，XLM-RoBERTa 和 DistilBERT-multilingual）并采用包含鼓励模型生成英语主题代词和要求模型返回与性别代词相关的动词、副词和形容词概率的提示来调查遮蔽语言模型中固有的偏见，尤其是性别偏见。分析结果显示所有模型存在性别刻板印象，而多语言变体的偏见相对较小。

Jan, 2024

数据和模型中的顽固词汇偏见

使用新的统计方法检查模型训练过程中的假相关关系，发现即使使用了优化方法来减少数据中的偏差，训练出的模型中仍存在对标签的偏差，影响了自然语言推理和重复问题检测两个任务的性能。

Jun, 2023

选择引起的撞击器偏差：性别代词不确定性案例研究

本文针对任务欠规范化问题，采用因果术语，并开发了一种在未修改大型语言模型时，对性别和性别中性实体之间的杂波关联进行经验测量的方法，检测了以前未报告的杂波相关性。然后，我们描述了一种轻量级方法，利用由此产生的错误关联进行预测任务的不确定性分类，在 Winogender Schemas 挑战集上实现了超过 90％的准确性。最后，我们推广了我们的方法，以处理更广泛的预测任务，并为此处描述的每种方法提供开源演示。

Sep, 2022

掩蔽语言模型的归纳偏好：从统计学到句法依赖

研究预训练语言模型如何通过无监督学习中的遮盖和预测标记产生语言结构和改进下游性能；理论认为，预训练语言模型通过遮盖具有暗示下游任务的填空作用，获得有用的归纳偏见。本文构建了类似填空的掩码，并用于三个不同的分类数据集，证明了预训练模型的绝大部分性能提升来自没有与词典关联的通用掩码；我们演示了掩码语言模型（MLM）目标与学习图形模型中的统计依赖的现有方法之间的对应关系，并利用这一点派生出一种提取该模型中学习到的统计依赖的方法，这些依赖以句法结构的形式编码。通过对暗示的统计依赖结构进行最小生成树的无监督解析评估，在无监督解析方面，简单地形成最小生成树优于经典的无监督解析方法（58.74 vs. 55.91 UUAS）

Apr, 2021

大型语言模型的上下文偏见抑制

大型语言模型（LLMs）中存在的性别偏见令人担忧，但提出了一种无需访问模型参数的新方法，即通过手动设计的文本前言和职业描述句来有效抑制性别偏见，并且对下游任务性能影响最小。

Sep, 2023

大型语言模型中的性别偏见

我们研究了不同语言中大型语言模型生成的输出中的性别偏见，通过三项测量方法评估性别相关背景下选择描述性词语的性别偏见、选择性别相关代词（她 / 他）的性别偏见以及生成对话的主题的性别偏见。我们的研究表明，在我们调查的所有语言中都存在显著的性别偏见。

Mar, 2024

分析多种语言 BERT 变体中存在的社会偏见

本研究探讨了预训练语言模型在不同语言中所存在的偏见，提出了一种基于句子假设度量的模板方法来检测偏见，通过该方法分析了每个单语模型。研究发现，检测偏见的方法高度依赖于语言和文化，需要对每种语言和文化的独特表达方式进行深入了解。而与此相关的，我们假设非英语 BERT 模型中更高的社会偏见指数与其训练的用户生成内容有关。

Nov, 2022