关于预训练神经语言模型中偏见性的加强理解：一项调查，特别关注情感偏见

Apr, 2022

关于预训练神经语言模型中偏见性的加强理解：一项调查，特别关注情感偏见

Towards an Enhanced Understanding of Bias in Pre-trained Neural Language Models: A Survey with Special Emphasis on Affective Bias

PDF

Anoop K., Manjary P. Gangan, Deepak P., Lajish V. L

TL;DR本文针对大型预训练语言模型中的偏差问题进行调研，分析了偏差发生在模型的哪些阶段以及如何量化和减轻影响。尤其是针对情感相关的偏差问题进行了探讨，旨在提供未来研究的参考和挑战。

Abstract

The remarkable progress in natural language processing (NLP) brought about by deep learning, particularly with the recent advent of large pre-trained neural →

natural language processing deep learning biases language models affective computing

发现论文，激发创造

第二次审视的偏见：对德国教育同行评审数据建模偏见的深入挖掘

本文基于德文语料库的数据集，在多个体系结构中通过词嵌入联想测试（WEAT）分析了预先训练的德语语言模型的偏见，发现这些语言模型存在实质性的概念、种族和性别偏见，并且在同伴评审数据的微调中，偏见在概念和种族轴上有显着变化。

Sep, 2022

大型预训练神经语言模型中的潜在情感偏差：黑人与愤怒，白人与喜悦？

该研究针对大型预训练语言模型，通过对其在情感检测任务中存在的偏向性进行调查，揭示了情感偏差的存在。在分析情感偏斜的语料库分布的基础上，研究对不同偏向进行了广泛的分类和强度评估，结果表明大型预训练语言模型在情感检测系统中存在明显的情感偏差，即某些情感与特定的性别、种族和宗教存在偏见。

Jan, 2023

自然语言处理中偏差和公平性调查

本次调查分析了 NLP 模型的社会影响，探讨了 NLP 算法中存在性别、种族和文化偏见的根源，定义了公平性，并说明了 NLP 各个子领域如何减少系统存在的偏见，最终讨论了未来研究如何消除 NLP 算法中的有害偏见。

Mar, 2022

自然语言处理模型中的预测偏见：概念框架和概述

文章提出了一种用于 NLP（自然语言处理）的预测性偏差框架，该框架将数据、模型、标签偏差、选择偏差、模型过度放大、语义偏差作为偏差的四个主要来源，并探讨了过去的工作是如何对抗每种偏差来源的，以期引导未来研究。

Nov, 2019

大型语言模型中的公平性偏差和去偏差之旅

这篇研究使用变换器语言模型研究了其训练数据所带来的偏见问题，并提出了一种去偏方法，得到的去偏模型在下游任务上保持了良好的表现。

May, 2023

从预训练数据到语言模型到下游任务：跟踪导致不公正 NLP 模型的政治偏见

本研究旨在测量大型语言模型中社会和经济偏见的媒体偏见，以及在预训练数据中表现出政治（社会，经济）偏见的先验模型对高风险社会导向任务的公平性的影响。结果发现先验模型确实存在政治倾向，这可能加剧原始数据中的偏见并将其传播到误导检测器之类的下游模型中，本研究讨论了这些发现对 NLP 研究的影响，并提出了减轻不公平的未来方向。

May, 2023

视觉语言模型中的社会偏见调查

近年来，机器学习模型，特别是基于 Transformer 的预训练模型，对自然语言处理和计算机视觉领域产生了革命性的进展。然而，研究人员发现这些模型可能无意中捕捉和强化其训练数据集中存在的社会偏见，导致资源分配不平等和特定社会群体的不公平代表。解决这些偏见并确保人工智能系统的公平性已成为机器学习界关注的焦点。最近介绍的预训练视觉语言模型在新兴的多模态领域引起了人们对其中的社会偏见的关注。尽管视觉语言模型易受社会偏差影响，但对比自然语言处理和计算机视觉领域中广泛讨论的偏见而言，对此了解有限。本调查旨在向研究人员提供关于 NLP、CV 和 VL 领域中预训练模型社会偏见研究的高层次见解。通过检查这些观点，本调查旨在为单模态和多模态环境下如何应对和减轻社会偏见提供有价值的指导。本文所提供的结果和建议可使机器学习界受益，并促进在各种应用和研究努力中开发更加公平和无偏的人工智能模型。

Sep, 2023

自然语言处理中不良偏见：避免度量危机

本文综述了自然语言处理技术的快速发展所带来的问题，尤其是如何检测这些技术中的偏见。作者讨论了适用于评估和改进这些偏见测量方法的心理测量学概念，并认为采用心理测量学词汇和方法可以使 NLP 偏见研究更有效和透明。

Nov, 2022

自然语言处理中社会人口统计信息偏差调查

本篇论文调查了 209 篇关于自然语言处理模型中的偏差的论文，提出了社会人口统计学偏见的定义，并确定了研究偏见的三个主要类别：偏见类型，偏见度量和去偏见。作者总结说，目前的去偏见技术是肤浅的，不能真正消除偏见；最后提供了未来工作的建议。

Jun, 2023

评估最近大型预训练模型中的社会偏见

研究旨在探讨最新的预训练模型中是否比旧模型更负责任地发展，以便降低固有的社会偏见以及探究三个最近的模型（ELECTRA，DeBERTa 和 DistilBERT）在减少偏见方面的总体趋势。实验比较这些模型与基准 BERT 的关联指标，并发现所有研究对象都存在有偏差，但完整指标相对于 BERT 有所提高。

Apr, 2023