IBADR: 一个迭代的认知偏差数据修正框架用于消除 NLU 模型的偏见
通过引入一种简单而有效的去偏置框架,利用主模型的浅层表示来推导一个偏置模型,并同时训练两个模型,我们在三个广泛研究的自然语言理解任务中演示了该方法的有效性,尽管其简单性,但其在越界测试集上表现不俗,明显优于其他去偏执方法,并且仍然能够提供高性能的内分布结果。
Sep, 2021
近期大型语言模型取得重大突破,显著增强了自然语言处理应用,但这些模型也可能继承和持续传播来自训练数据的偏见。为了解决这个问题,我们介绍了 Bias Evaluations Across Domains (BEADs) 数据集,旨在支持各种自然语言处理任务,包括文本分类、偏见实体识别、偏见量化和良性语言生成。BEADs 使用 AI 驱动的注释结合专家验证来提供可靠的标签,克服了现有数据集的局限性。实证分析表明,BEADs 能够有效检测和减少不同语言模型的偏见,经过 BEADs 微调的较小模型在偏见分类任务中通常优于大型语言模型。然而,这些模型可能仍对特定人群存在偏见。使用我们的良性语言数据对大型语言模型进行微调也能减少偏见并保留模型的知识。我们的发现突出了全面偏见评估的重要性以及针对大型语言模型减少偏见的有针对性微调的潜力。我们将 BEADs 公开提供。
Jun, 2024
本文提出了一种名为 Ada-ABC 的去偏差框架,不依赖于显式偏差标签,以解决医学图像中的数据集偏差问题。Ada-ABC 通过构建一个包含多个分类器的有偏议评议会,并在其指导下同时训练一个去偏模型,使得去偏模型能够在被评议会正确预测的样本上达成自适应一致,并在被评议会错误预测的样本上达成不一致,从而在不忽视具有伪相关性样本中的丰富信息的同时,学习不受伪相关性影响的目标特征。实验证明了 Ada-ABC 在医学图像分类中缓解数据集偏差方面的有效性,并构建了第一个医学去偏差基准测试集。
Jan, 2024
提出了 DebiAN 方法来识别和减少深度图像分类器从数据集中学习到的偏见,该方法包括两个网络,一个 Discoverer 和一个 Classifier,旨在在没有任何偏见注释的情况下找到分类器的多个未知偏见。在现实世界的数据集上,DebiAN 发现的未知偏见可能难以被人类发现,且可实现强大的偏见缓解性能。
Jul, 2022
通过提出第一种统一框架 UDDIA 来解决自然语言生成中的道德问题,该框架同时解決了去除偏见和毒性语言的问题,并提升了文本生成性能。
Oct, 2022
在这项研究中,我们提出了一种在没有先验知识的情况下通过关键词的部分出现来识别潜在偏见的框架,并进一步提出了两种去偏方法:(a) 通过指定伪标签将其传递给现有的需要先验知识的去偏方法,以及 (b) 通过文本到图像生成模型进行数据增强,使用获得的偏见关键词作为提示。实验结果表明,尽管简单,我们的框架不仅能在没有先验知识的情况下胜过现有方法,而且甚至可以与假设有先验知识的方法媲美。
Jun, 2024
本文介绍了一种名为置信度正则化的新型去偏方法,旨在提高自然语言理解任务模型对于越界数据的表现,同时保持对内界数据的准确度。实验表明,与之前的方法相比,该方法在提高模型对越界数据的表现方面具有更好的效果。
May, 2020
大型语言模型中的公平性和流畅度之间的权衡问题研究,提出了一种基于信息论的框架 LIDAO,用于使语言模型更好地实现公平性而仍保持流畅度。
Jun, 2024