Bipol: 一种新型的 NLP 多轴偏见评估指标和可解释性

Apr, 2023

Bipol: 一种新型的 NLP 多轴偏见评估指标和可解释性

Bipol: A Novel Multi-Axes Bias Evaluation Metric with Explainability for NLP

Lama Alkhaled, Tosin Adewumi, Sana Sabah Sabry

TL;DR引入了 bipol，这是一种具有可解释性的新度量，用于评估文本数据中的社会偏见。通过评估两个受敏感术语频率和模型分类影响的过程，我们使用 SotA 架构创建了新模型来检测多个方面的偏见，并评估了两个流行的 NLP 数据集 (COPA 和 SQUAD)。同时，我们还创造了一个含有近 200 万标记样本的大型数据集，以便训练偏见检测模型，并将其公开发布。

Abstract

We introduce bipol, a new metric with explainability, for estimating social bias in text data. Harmful bias is prevalent in many online sources of data that are used for training machine learning (ML) models. In a step to address this challenge we create a novel metric that involves a

social bias text data machine learning models nlp datasets bias detection

发现论文，激发创造

Bipol: 基准数据集中带可解释性的多轴偏差评估

本研究评估了五个英文 NLP Benchmark 数据集，使用一个多轴偏差评估度量（bipol）定量分析和解释这些数据集多大程度存在偏差。同时创造了一个新的大型标记的瑞典语偏差检测数据集，使用其中的数据训练了一个针对偏差检测的 SotA 模型，并公开了代码、模型、和新数据集。

Jan, 2023

量化自然语言处理中的社会偏见：对外在公平度量的一般化及实证比较

本文提出了三个广义公平度量标准，系统分析了不同的参数选择如何导致公平度量方法之间的差异，以更好地了解和处理 NLP/ML 模型中的不公平性。

Jun, 2021

在综合描述符数据集中发现语言模型中的新偏见

本文介绍了一种全新的包含 13 个不同人口统计学轴线近 600 个描述符的、基于 HolisticBias 的更加包容性的偏差测量数据集，结合一组偏差测量模板产生超过 45 万个独特的句子提示，用于探索、识别和减少几个生成模型中的新型偏差。

May, 2022

ROBBIE: 大规模生成语言模型的稳健偏见评估

评估和改善大型语言模型（LLMs）的公平性，通过使用不同的提示性数据集来测量社会偏见，对比模型之间的偏差和毒性度量，并研究偏差 / 毒性降低技术的效果。我们开源分析代码以鼓励测量未来 LLMs 偏见的广泛研究。

Nov, 2023

KnowBias：检测长文本内容中的政治极性

本文提出了一种基于推文训练的两步分类方案，用于检测长文本中的政治偏见。该方案包括通过推特数据训练中性检测器，用于去除文章中的中性句子以实现意见集中，并提高了文章的预测准确性。

Sep, 2019

Bipol 下的数据偏差：男性天生右派，女性的角色是跟随他们的领导

我们介绍了关于三种语言中偏见的新的大型标记数据集，并通过实验证明了在评估的 5 种语言中的 10 个数据集中都存在偏见，包括英语 GLUE/SuperGLUE 排行榜上的基准数据集。我们使用 SotA 多语言预训练模型 mT5 和 mBERT 对这些数据集进行了基准测试。在 AI 和大型语言模型（LLMs）的最新事件中，基于偏见的社会偏见是无处不在的。受到这一挑战的驱使，我们开始估计多个数据集中的偏见。我们比较了一些最近的偏见指标，并使用具有度量解释性的 bipol。我们还通过使用 95％的置信水平和 7％的误差范围在有害评论的数据集群中随机抽取了 200 个样本，以确认没有经过验证的假设即偏向存在。在 200 个样本中，有 30 个样本被随机分布以确保标注的质量。我们的研究结果确认了许多数据集存在男性偏见（对女性的偏见），除其他类型的偏见。我们公开发布了新的数据集、词典、模型和代码。

Apr, 2024

量化大型语言模型中的政治偏见：言论内容及言辞方式调查

我们提出通过分析 LLMs 生成内容中关于政治问题的内容和风格来衡量政治偏见。我们的提议旨在提供 LLMs 生成的政治偏见的细致和可解释的度量方法，以向用户提供透明度。我们的研究关注不同的政治问题，如生殖权和气候变化，并从内容和风格两个方面测量政治偏见，以展示我们的框架的可扩展性和可解释性。

Mar, 2024

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

诱导政治偏见使语言模型预测党派对争议的反应

通过使用大规模语言模型（LLMs）来准确解读和预测政治偏见在社交媒体平台上充斥的政治性讨论，本研究创新性地采用了一个指导调整的 LLM，以反映一系列政治意识形态。我们提出了一个综合的分析框架，包括党派偏见差异评估和党派倾向预测，以评估模型在立场、情绪和道德基础等方面与现实政治意识形态保持一致。研究发现模型在捕捉情绪和道德细微差别方面的有效性，但在立场检测方面存在一些挑战，突显了 NLP 工具在政治敏感环境中精细化和改进的复杂性和潜力。此研究通过展示 LLMs 中细致的政治理解的可行性和重要性，特别适用于需要敏锐意识到政治偏见的应用，为该领域做出了重要贡献。

Nov, 2023

所以说，解释性模型在文档评分偏差中的应用

本文介绍了一个基于 Wikipedia 文章的可解释模型来评分网络文档的偏见性，并且应用该模型研究了 Wikipedia 文章中的偏见的时间演变，新闻媒体的偏见比较和法律修正案中的偏见评分，最后发现在各个领域中，法规文件是最少有偏见的，新闻媒体是最有偏见的，Wikipedia 文章则居中。

Jul, 2023