BEADs：跨领域偏见评估

Jun, 2024

BEADs: Bias Evaluation Across Domains

Shaina Raza, Mizanur Rahman, Michael R. Zhang

TL;DR近期大型语言模型取得重大突破，显著增强了自然语言处理应用，但这些模型也可能继承和持续传播来自训练数据的偏见。为了解决这个问题，我们介绍了 Bias Evaluations Across Domains (BEADs) 数据集，旨在支持各种自然语言处理任务，包括文本分类、偏见实体识别、偏见量化和良性语言生成。BEADs 使用 AI 驱动的注释结合专家验证来提供可靠的标签，克服了现有数据集的局限性。实证分析表明，BEADs 能够有效检测和减少不同语言模型的偏见，经过 BEADs 微调的较小模型在偏见分类任务中通常优于大型语言模型。然而，这些模型可能仍对特定人群存在偏见。使用我们的良性语言数据对大型语言模型进行微调也能减少偏见并保留模型的知识。我们的发现突出了全面偏见评估的重要性以及针对大型语言模型减少偏见的有针对性微调的潜力。我们将 BEADs 公开提供。

Abstract

Recent improvements in large language models (LLMs) have significantly enhanced natural language processing (NLP) applications. However, these models can also inherit and perpetuate biases from their training dat

large language models biases beads dataset bias evaluation fine-tuning

发现论文，激发创造

第二次审视的偏见：对德国教育同行评审数据建模偏见的深入挖掘

本文基于德文语料库的数据集，在多个体系结构中通过词嵌入联想测试（WEAT）分析了预先训练的德语语言模型的偏见，发现这些语言模型存在实质性的概念、种族和性别偏见，并且在同伴评审数据的微调中，偏见在概念和种族轴上有显着变化。

Sep, 2022

通过建模语料库中的偏见进行端到端偏见缓解

本文提出了两种学习策略来训练神经模型，更加稳健，并且更能够迁移到域外的数据集。这些策略利用了数据集的偏差，通过 down-weighting 有偏差的例子，使基础模型减少对偏差的依赖。实验表明，我们的去偏差方法在所有设置中都显著提高了模型的稳健性，并且更好地迁移到其他文本蕴涵数据集上。

Sep, 2019

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

GELDA：揭示数据集中的视觉偏差的生成语言标注框架

GELDA 是一个几乎自动的框架，利用大规模生成语言模型（LLMs）为一个领域提出和标记各种属性，并使用 LLMs 决定在图像中对每个属性进行分类的视觉语言模型（VLMs），结果显示 GELDA 能够生成准确和多样的视觉属性建议，并发现偏见，即类标签和背景特征之间的混淆，它可以作为一种辅助工具帮助人们以一种廉价、低成本和灵活的方式分析数据集。

Nov, 2023

语言模型的新发现：在自然语言推理数据和模型中的鲁棒性 - 偏差互动

本文提出了一种利用语言模型生成词汇变体、对抗性过滤和人工验证相结合的方法扩展现有的 Bias Benchmark for NLI (BBNLI) 测评数据集为 BBNLI-next，并介绍了能够区分模型误差类型的倾向度（bias）测量标准，说明了现有偏见分数存在的不足并提出了考虑到促进 / 反对刻板印象倾向和模型脆弱性的倾向度测量标准。

May, 2023

使用 BABE 远程监督进行神经媒体偏见检测 -- 专家标注偏见

本论文介绍 BABE 数据集，该数据集由专家标注，在标注质量和协议一致性方面比现有研究有了更好的表现。基于该数据集，使用 BERT 模型进行监督学习，可以自动检测新闻文章中引入偏见的句子。最终实验结果表明，该方法优于现有方法，在该数据集上的宏 F1 值为 0.804。

Sep, 2022

GPTBIAS：评估大型语言模型中的偏差的综合框架

我们提出了一个名为 GPTBIAS 的偏见评估框架，它利用 LLMs 的高性能来评估模型的偏见，提供偏见分数以及包括偏见类型、受影响的人群、关键词和改进建议在内的详细信息，通过广泛的实验证明了该评估框架的有效性和可用性。

Dec, 2023

通过同时建模多个偏差来提高问答的泛化性能

研究了消除数据集偏见的方法，并提出了一个能更好地在域内和域外数据集上提高性能的通用框架，可用于问答任务，并与现有的消除数据集偏见的方法进行了比较。

Oct, 2020

神经自然语言处理中的性别偏见

本文研究了神经自然语言处理系统是否反映了训练数据中的历史偏见。通过定义量化神经自然语言处理任务中的性别偏见的基准测试，实证研究发现目前最先进的神经语言模型和基于基准数据集的循环神经网络在职业看待上存在显著的性别偏见。作者提出了一种基于因果干预的语料库增强通用方法，CDA，以减轻偏见而保留矫正前的准确性。作者发现 CDA 优于词嵌入去偏的先前方法，尤其是在词嵌入训练时；对于预先训练的嵌入，两种方法可以被有效地组合。作者还发现原始数据集在优化时会鼓励性别偏见增加；而 CDA 可以缓解这种行为。

Jul, 2018

NBIAS：文本中的偏见识别的自然语言处理框架

通过开发一个全面而健壮的框架 “Nbias”，我们能够检测和消除文本数据中的偏见，以确保数据的公正和道德使用。该框架包括数据层、语料库构建、模型开发层和评估层，并应用了基于 transformer 的标记分类模型识别具有独特命名实体的偏见词语 / 短语。通过定量和定性评估的混合方法，我们取得了 1% 至 8% 的准确率改进，同时还能全面理解模型的性能，捕捉其数量数据以及质量和复杂性的特征。该方法适用于各种偏见，并促进了文本数据的公正和道德使用。

Aug, 2023