关于发现和移除语言数据中瑕疵的能力问题
文章提出了一种用于NLP(自然语言处理)的预测性偏差框架,该框架将数据、模型、标签偏差、选择偏差、模型过度放大、语义偏差作为偏差的四个主要来源,并探讨了过去的工作是如何对抗每种偏差来源的,以期引导未来研究。
Nov, 2019
本研究提出了一种方法,利用解释性方法从文本中提取影响模型决策过程的标记,分析模型在多个语料库上的预测并进一步通过知识感知扰动来区分'真正'的标记和'虚假'标记,有效地识别出一组'捷径',从而实现在多个应用中的更加鲁棒的模型。
Oct, 2021
本文区分了NLP中的“虚假相关”中的两种情况(特征对标签的影响是否取决于上下文),并使用因果模型和必要性和充分性概率对其进行了更细致的处理,说明了现有去偏差方法的结果,并揭示了去偏差后模型表示中虚假特征的编码。
Oct, 2022
本文为了解决公开领域语言模型中偏见检测的问题,就语境化语言模型偏见检测方法和静态单词嵌入偏见检测方法进行了严谨的分析和比较,发现了实现上的一些决策或错误对检测结果可能产生显著的影响,并提出了未来偏见检测方法更好、更健壮、更一致的方向。
Nov, 2022
本研究旨在研究Annotation Artifacts在大型预先训练的NLP模型中的表现,分析其在自然语言推断任务中的限制、通过数据增强技术解决注释工件所引起的偏差,以及评估该方法的有效性。
Feb, 2023
本文提出了一种利用语言模型生成词汇变体、对抗性过滤和人工验证相结合的方法扩展现有的 Bias Benchmark for NLI (BBNLI) 测评数据集为 BBNLI-next,并介绍了能够区分模型误差类型的倾向度(bias)测量标准,说明了现有偏见分数存在的不足并提出了考虑到促进 / 反对刻板印象倾向和模型脆弱性的倾向度测量标准。
May, 2023
NLPositionality框架用于检测自然语言处理(NLP)模型及数据集的偏差和位置特征,研究发现现有的数据集和模型普遍偏向西方白人、受过高等教育的年轻人,并排斥一些群体如非二元人群和非英语母语者,本文提出如何检查NLP模型及数据集的创造者的位置特征。
Jun, 2023
使用新的统计方法检查模型训练过程中的假相关关系,发现即使使用了优化方法来减少数据中的偏差,训练出的模型中仍存在对标签的偏差,影响了自然语言推理和重复问题检测两个任务的性能。
Jun, 2023
大型语言模型中的社会偏见评估和缓解技术的综述,介绍了社会偏见与公平的概念、评估指标和数据集,以及介绍了干预方法的分类和研究趋势,帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。
Sep, 2023
近期大型语言模型取得重大突破,显著增强了自然语言处理应用,但这些模型也可能继承和持续传播来自训练数据的偏见。为了解决这个问题,我们介绍了Bias Evaluations Across Domains (BEADs)数据集,旨在支持各种自然语言处理任务,包括文本分类、偏见实体识别、偏见量化和良性语言生成。BEADs使用AI驱动的注释结合专家验证来提供可靠的标签,克服了现有数据集的局限性。实证分析表明,BEADs能够有效检测和减少不同语言模型的偏见,经过BEADs微调的较小模型在偏见分类任务中通常优于大型语言模型。然而,这些模型可能仍对特定人群存在偏见。使用我们的良性语言数据对大型语言模型进行微调也能减少偏见并保留模型的知识。我们的发现突出了全面偏见评估的重要性以及针对大型语言模型减少偏见的有针对性微调的潜力。我们将BEADs公开提供。
Jun, 2024