预训练语言模型中的潜在命名偏差

EMNLPApr, 2020

预训练语言模型中的潜在命名偏差

"You are grounded!": Latent Name Artifacts in Pre-trained Language Models

Vered Shwartz, Rachel Rudinger, Oyvind Tafjord

TL;DR本文针对预训练语言模型 (LMs) 可能在下游模型中保留其训练语料库中的偏差进行了研究，重点关注给定名称（例如 Donald）表示中出现的问题，可能会因不同的语料库与特定实体相关，如后续标记预测（例如 Trump），通过阅读理解探针演示了名称扰动对模型答案的潜在影响，我们的实验表明，对不同语料库进行额外的预训练可能会减轻这种偏差。

Abstract

pre-trained language models (LMs) may perpetuate biases originating in their training corpus to downstream models. We focus on artifacts a

pre-trained language models biases donald next token prediction downstream models

发现论文，激发创造

大型预训练语言模型包含人类的偏见：什么是对与错

该研究指出近期基于 transformer 的大型语言模型（LMs）例如 BERT, GPT-2/3，虽然在许多 NLP 任务中表现出色，但是这些 LMs 训练于未过滤的语料库会出现偏差行为。同时，该研究证明这些 LMs 也包含类似于人类的伦理和道德规范，这种 “道德方向” 运用 PCA 等技术可以减弱甚至消除不当的行为，以排除生产有害的信息，该研究应用在 RealToxicityPrompts 测试中展示了这个道德方向可以引导模型产生符合伦理要求的文本。

Mar, 2021

利用预训练语言模型唤醒潜在的语义关系推理能力

本文提出了一种基于擦除 - 唤醒方法的预训练语言模型的定位能力实验技术，并在四个数据集上进行了实证研究。实验证明，该方法可以唤醒潜在的实体定位，有望提高下游的语义解析模型，特别是在 text-to-SQL 的应用方面表现出了极大的潜力。

Sep, 2021

从预训练数据到语言模型到下游任务：跟踪导致不公正 NLP 模型的政治偏见

本研究旨在测量大型语言模型中社会和经济偏见的媒体偏见，以及在预训练数据中表现出政治（社会，经济）偏见的先验模型对高风险社会导向任务的公平性的影响。结果发现先验模型确实存在政治倾向，这可能加剧原始数据中的偏见并将其传播到误导检测器之类的下游模型中，本研究讨论了这些发现对 NLP 研究的影响，并提出了减轻不公平的未来方向。

May, 2023

审计大型语言模型中的种族和性别偏见

我们利用审计设计研究了最先进的大型语言模型 (GPT-4) 中存在的偏见。通过在各种场景中向模型寻求建议，如在购车谈判或选举结果预测中，我们发现这些建议系统性地对与种族少数群体和女性有关联的名字不利。与黑人女性有关的名字获得的结果最不有利。这些偏见在 42 个模板和几个模型中的一致性表明这是一个系统性问题，而非孤立事件。虽然在提示中提供数量、决策相关的锚点可以成功抵消偏见，但定性细节的作用不一致，甚至可能加剧不平等。我们的发现强调了在 LLM 部署和实施过程中进行审计的重要性，以减轻其对边缘化社群的潜在伤害。

Feb, 2024

定位和检测语言模型基础的瑕疵：使用 Fakepedia

中文摘要：本研究介绍了 Fakepedia，一个反事实数据集，用于评估大型语言模型在参数化知识与上下文信息相冲突时的接地能力。我们测试了各种大型语言模型在 Fakepedia 上的表现，并发现 GPT-4-turbo 更偏好参数化知识，而 Mistral-7B 则最稳定地选择了接地答案。此外，我们对大型语言模型进行因果中介分析，结果表明仅凭计算图的检查即可预测 92.8% 准确度的接地情况，尤其是变压器中的少数 MLP 可以预测非接地行为。我们的结果与现有关于事实回忆机制的发现相结合，提供了大型语言模型中接地和事实回忆机制的相互作用的连贯叙述。

Dec, 2023

大型语言模型是假定的语义基础还是猜测？

现有的大型语言模型在构建共性时，假设存在共同基础，而无需使用对话行为，因此需要进一步研究人机交互中的共性问题。

Nov, 2023

探究预训练语言模型的数据污染

本文研究了语言模型在预训练阶段遭受数据污染的影响，探索了文本污染和真实数据污染对模型性能的影响，调查了不同下游任务中污染的重复效应，并指出了当前 LLM 报告中关于污染定义的局限性和不足之处。研究结果为了解数据污染对语言模型的影响提供了新的见解，并强调在 LLM 研究中进行独立、全面的污染评估的必要性。

Jan, 2024

预训练语言模型的可迁移性研究：来自人工数据集的探讨

本文研究了预先训练语言模型在下游任务中表现卓越的特定特质，包括匹配预训练集和下游任务的词汇统计信息、明确依赖关系和隐式依赖的长度等。实验证明，在预先训练数据的明确依赖关系中加入后，模型的下游性能显著提高。我们发现预先训练模型是有可能在下游任务中学习到虚假的相关性。即使语言模型没有预先在自然语言上进行训练，只要其能够模拟序列中的令牌依赖关系，仍然可以在某些语言任务中获得迁移能力。

Sep, 2021

向量基础问题

通过探究内在表征的多种不同地基于生物或人工系统方法（指示性、感觉运动、关系、交流和认识性地基础），梳理分化它们之间的差异，并阐述说明认为指示性地基础是矢量基础问题的关键所在。基于哲学和认知科学中的表征内容理论，本文提出了某些大语言模型（LLMs，尤其是使用人类反馈从 RLHF 进行调整的）具有克服矢量基础问题所必需的特征，并且提出，多模态和体现都不是人工系统指示性基础的必要或充分条件。

Apr, 2023

不生成，而是识别：一个在真实世界环境中基于语言模型的建议

Pangu 是一个通用的基于神经网络的 grounded language understanding 框架，它采用了 LM 的较强区分能力作为建模依据，并且在基于 KBQA 的案例中展示了卓越的性能，同时使得大型 LM 包括 Codex 可以进行有效的 few-shot in-context learning。

Dec, 2022