- 语言引导的未知数据集偏差检测与减轻
在这项研究中,我们提出了一种在没有先验知识的情况下通过关键词的部分出现来识别潜在偏见的框架,并进一步提出了两种去偏方法:(a) 通过指定伪标签将其传递给现有的需要先验知识的去偏方法,以及 (b) 通过文本到图像生成模型进行数据增强,使用获得 - 大型语言模型偏见缓解的知识编辑视角
通过对现有和附加的数据集进行系统评估公平性、特异性和泛化性的互补度量,本文首先建立了一个新的偏差缓解基准 BiasKE。同时,我们提出了一种新颖的偏差缓解方法 FAST,通过对个体偏见知识进行细粒度校准,实现可编辑的公平性。全面的实验证明, - 基于解释的偏见解耦规范化的自然语言推理
通过 Explanation based Bias Decoupling Regularization 方法,我们的研究的关键词是 Transformer-based 自然语言推理、数据集偏差、去偏方法、因果关系和解释性。该方法能够通过人本 - 应对生物医学中人工智能公平性和偏见的最新方法调查
人工智能系统在临床实践中有潜力革新,包括提高诊断准确性和手术决策,并降低成本和人力。然而,需要认识到这些系统可能会延续社会不公平或表现出以种族或性别为基础的偏见。为了准确可靠地应用人工智能模型于临床环境中,理解和解决潜在的偏见至关重要。通过 - 预训练与后续设置中的偏见评估与去偏差之间的差距
通过具有先验训练的语言模型,在逐字调整和上下文学习的基础上,研究了模型的社会偏见与内在偏见之间的相关性,并发现了可以降低性能退化的方法。
- EMNLP通过自然语言理解中的偏见专家来改进偏见缓解
通过引入偏见专家(bias experts),我们提出了一个新的去偏框架,改善了辅助模型的偏见识别能力,并且在各种挑战性数据集上始终优于现有技术水平。
- EMNLP通过因果信息最小化校正多模型偏差
研究论文通过利用因果论的方法,学习混淆因素的表示,并利用这些表示来消除模型中的偏见。研究发现,所学习的混淆因素表示确实捕捉到数据集中的偏见,并且所提出的消除偏见的方法在多个多模态数据集上提高了模型的离分布性能,而不损害在分布性能。
- 通用短语去偏器:在多令牌级别上去偏遮蔽语言模型
提出了一种自动的多令牌去偏见流程,称为 “General Phrase Debiaser”,它可以减轻被遮蔽语言模型中的短语级偏见。所提方法在标准数据集和评估指标上取得了最新成果,显著降低了职业和多个领域中的性别偏见,并适用于具有不同参数大 - EMNLPDeCrisisMB:通过记忆库进行偏倚半监督危机推文分类的学习
危机事件分析中,社交媒体平台、紧急救援组织和半监督模型的偏差处理方法对于危机推文分类具有重要意义。通过研究和比较不同的偏差处理方法,我们提出了一种简单而有效的 DeCrisisMB 方法,并通过广泛实验证明其在分发情况和超发情况下的优越性能 - NIPS快速模型去偏置与机器遗忘
最近的研究发现,深度神经网络在许多实际场景中可能表现出偏见。本研究提出了一种快速模型去偏方法(FMD),该方法通过显式的反事实概念识别偏见属性,并使用影响函数量化数据样本的影响,进而设计了一种基于机器遗忘的策略来高效有效地消除模型中的偏见。 - 大型语言模型的上下文偏见抑制
大型语言模型(LLMs)中存在的性别偏见令人担忧,但提出了一种无需访问模型参数的新方法,即通过手动设计的文本前言和职业描述句来有效抑制性别偏见,并且对下游任务性能影响最小。
- 大型语言模型公平性调研
大语言模型带来了强大的性能和发展前景,并广泛应用于现实世界。然而,这些模型可能从未经处理的训练数据中捕捉到社会偏见,并将其传播到下游任务。本文全面回顾了关于大语言模型中的公平性的相关研究,介绍了中等规模的模型和大规模的模型分别从内在偏见和外 - 强健的视觉问答:数据集,方法和未来挑战
视觉问答研究需要系统能够根据图像和自然语言问题提供准确的自然语言答案。然而,先前的通用 VQA 方法普遍存在记忆训练数据中的偏见而不是学习正确行为(如在预测答案之前进行图像建立联系)。因此,这些方法通常在分布内获得高性能但在分布外获得低性能 - ACL评估和减轻多语言环境中的性别偏见
这项研究探讨在多语言环境中评估和减少性别偏见在语言模型中的挑战,并通过 DisCo 扩展到不同的印度语言来创建了一个评估预训练屏蔽语言模型中性别偏见的基准,同时评估了各种方法对 SOTA 大规模多语言模型减轻此类偏见的有效性。
- 平衡画面:利用合成对比集去偏置视觉 - 语言数据集
通过提出一个新颖的数据处理流程来纠正常用公平度量工具 (Bias@K) 存在偏见且不精确的问题。该流程通过提供一组性别平衡的对比集来扩充 COCO Captions 数据集,我们基于此数据集证明了在多个基于 CLIP 的模型中偏差的存在,表 - ACL消除偏见的好与坏:测量语言模型中消除偏见技术的一致性
该文提出了一种标准化协议来区分那些不仅产生了可取的结果,而且与它们的机制和规格一致的去偏差方法,并通过提供 essential insights 来展示了该协议对于去偏差方法的普适性和可解释性的重要性。
- ACLCHBias:中文对话语言模型的偏见评估与缓解
本文介绍了一个新的中文数据集 CHBias,用于对中文会话语言模型进行偏见评估和缓解。试验结果表明,使用该数据集的去偏执方法可以减少生成具有社会偏见的文本,同时保持模型的对话功能。
- 使用熵对抗数据增强来超越偏见
该论文提出了一种对抗性数据增强的训练方案,以消除分类中的捷径,提高深度神经网络的鲁棒性,并在分类基准测试中取得了竞争力的结果。
- 去偏差化是否必然导致模型性能下降
本文提出了一个理论框架,解释了语言模型性别偏差的三个候选机制,发现大部分现有的去偏见方法会导致性能下降,但提出了一种不会降低模型性能的方法,即因果检测微调方法。通过数值实验证明,该方法能够在部分缓解性别偏差的同时避免性能下降。
- 视觉和语言研究中实现更公平的神经模型的去偏置方法:一份调查报告
在电脑视觉和自然语言处理领域中,神经网络虽然能够取得最新成果,但是其存在数据内的建模偏见,导致人工智能领域出现了公平性的研究方向,其目的为了纠正算法偏见,提出了几种基于公平性的神经网络去偏置的方法。