IBADR: 一个迭代的认知偏差数据修正框架用于消除 NLU 模型的偏见

EMNLPNov, 2023

IBADR: 一个迭代的认知偏差数据修正框架用于消除 NLU 模型的偏见

IBADR: an Iterative Bias-Aware Dataset Refinement Framework for Debiasing NLU models

Xiaoyue Wang, Xin Liu, Lijie Wang, Yaoxiang Wang, Jinsong Su...

TL;DR本研究提出了 IBADR，一种迭代的偏差感知数据集优化框架，它在不预定义偏差特征的情况下对 NLU 模型进行去偏。实验结果和深入分析表明，IBADR 不仅显著优于现有的数据集优化方法，达到 SOTA，还与以模型为中心的方法兼容。

Abstract

As commonly-used methods for debiasing natural language understanding (NLU) models, dataset refinement approaches heavily rely on manual data analysis, and thus maybe unable to cover all the potential

debiasing nlu models dataset refinement ibadr biased features

发现论文，激发创造

端到端自校准框架用于稳健的 NLU 训练

通过引入一种简单而有效的去偏置框架，利用主模型的浅层表示来推导一个偏置模型，并同时训练两个模型，我们在三个广泛研究的自然语言理解任务中演示了该方法的有效性，尽管其简单性，但其在越界测试集上表现不俗，明显优于其他去偏执方法，并且仍然能够提供高性能的内分布结果。

Sep, 2021

BEADs：跨领域偏见评估

近期大型语言模型取得重大突破，显著增强了自然语言处理应用，但这些模型也可能继承和持续传播来自训练数据的偏见。为了解决这个问题，我们介绍了 Bias Evaluations Across Domains (BEADs) 数据集，旨在支持各种自然语言处理任务，包括文本分类、偏见实体识别、偏见量化和良性语言生成。BEADs 使用 AI 驱动的注释结合专家验证来提供可靠的标签，克服了现有数据集的局限性。实证分析表明，BEADs 能够有效检测和减少不同语言模型的偏见，经过 BEADs 微调的较小模型在偏见分类任务中通常优于大型语言模型。然而，这些模型可能仍对特定人群存在偏见。使用我们的良性语言数据对大型语言模型进行微调也能减少偏见并保留模型的知识。我们的发现突出了全面偏见评估的重要性以及针对大型语言模型减少偏见的有针对性微调的潜力。我们将 BEADs 公开提供。

Jun, 2024

通过从偏见委员会中学习自适应共识来消除医学图像偏见

本文提出了一种名为 Ada-ABC 的去偏差框架，不依赖于显式偏差标签，以解决医学图像中的数据集偏差问题。Ada-ABC 通过构建一个包含多个分类器的有偏议评议会，并在其指导下同时训练一个去偏模型，使得去偏模型能够在被评议会正确预测的样本上达成自适应一致，并在被评议会错误预测的样本上达成不一致，从而在不忽视具有伪相关性样本中的丰富信息的同时，学习不受伪相关性影响的目标特征。实验证明了 Ada-ABC 在医学图像分类中缓解数据集偏差方面的有效性，并构建了第一个医学去偏差基准测试集。

Jan, 2024

通过去偏替换网络来识别和减轻未知偏差

提出了 DebiAN 方法来识别和减少深度图像分类器从数据集中学习到的偏见，该方法包括两个网络，一个 Discoverer 和一个 Classifier，旨在在没有任何偏见注释的情况下找到分类器的多个未知偏见。在现实世界的数据集上，DebiAN 发现的未知偏见可能难以被人类发现，且可实现强大的偏见缓解性能。

Jul, 2022

基于推理时自适应优化的语言生成中的统一去毒化和去偏见处理

通过提出第一种统一框架 UDDIA 来解决自然语言生成中的道德问题，该框架同时解決了去除偏见和毒性语言的问题，并提升了文本生成性能。

Oct, 2022

语言引导的未知数据集偏差检测与减轻

在这项研究中，我们提出了一种在没有先验知识的情况下通过关键词的部分出现来识别潜在偏见的框架，并进一步提出了两种去偏方法：(a) 通过指定伪标签将其传递给现有的需要先验知识的去偏方法，以及 (b) 通过文本到图像生成模型进行数据增强，使用获得的偏见关键词作为提示。实验结果表明，尽管简单，我们的框架不仅能在没有先验知识的情况下胜过现有方法，而且甚至可以与假设有先验知识的方法媲美。

Jun, 2024

注重权衡：在不损害内部分布性能的情况下去偏向自然语言理解模型

本文介绍了一种名为置信度正则化的新型去偏方法，旨在提高自然语言理解任务模型对于越界数据的表现，同时保持对内界数据的准确度。实验表明，与之前的方法相比，该方法在提高模型对越界数据的表现方面具有更好的效果。

May, 2020

多项选择视觉问答及其之外的数据集偏差缓解

通过对视觉语言理解任务中的数据集偏差进行对抗数据合成和样本内反事实训练，提高模型的性能。

Oct, 2023

自然语言理解中的去偏方法使得偏见更容易被接受

通过提出一种基于探究的框架，研究了自然语言理解中的偏见修正方法。结果表明，推迟偏见的方法会导致更多的偏见被编码到模型的内部表示中。

Sep, 2021

LIDAO: 限制干预以解决（大规模）语言模型偏见问题

大型语言模型中的公平性和流畅度之间的权衡问题研究，提出了一种基于信息论的框架 LIDAO，用于使语言模型更好地实现公平性而仍保持流畅度。

Jun, 2024