公平 SISA:集成后处理以提高 LLMs 的公平性
该研究提出了一种名为 SISA 训练的框架,可在不同数据集、算法和难度的情况下,通过限制特定数据点在模型训练中的影响,加速机器学习模型的「忘记」过程,有助于实现更有效的数据治理。
Dec, 2019
本文提出了一种专门针对图数据的新型机器取消学习框架 GraphEraser,包括两种新颖的图分区算法和一种基于学习的聚合方法。研究表明,与 SISA 相比,GraphEraser 在取消学习效率和模型效用方面都具有较大优势。
Mar, 2021
本文通过数千次模型评估,并采用一种叫做 “取消后处理方法” 的简单理念,对多篇针对改进后处理基线的论文进行实证评估,发现在不同的表格数据集上所实现的公平性 - 准确性 Pareto 前沿线包含了所有现有的其他改进方法。作者还纠正了之前的两个常见方法学错误。
Jun, 2023
在这篇论文中,我们提出了一种稳定的序列遗忘(SSU)框架,该框架使用任务向量,通过引入额外的随机标签损失和应用基于梯度的权重显著性映射,以更稳定的方式在不同的时间步骤中从 LLMs 中删除受版权保护的内容,实验证明 SSU 在遗忘效果和保持模型的一般知识之间取得了良好的平衡。
Jun, 2024
大语言模型带来了强大的性能和发展前景,并广泛应用于现实世界。然而,这些模型可能从未经处理的训练数据中捕捉到社会偏见,并将其传播到下游任务。本文全面回顾了关于大语言模型中的公平性的相关研究,介绍了中等规模的模型和大规模的模型分别从内在偏见和外在偏见的角度引入了评估指标和去偏方法,并讨论了公平性发展中的挑战和未来方向。
Aug, 2023
近年来,语言技术和人工智能的最新进展在法律领域提出了众多语言模型,从预测判决到生成摘要等多种任务。本研究探讨了大规模语言模型(LLMs)在印度社会因素参与的法律任务中的能力。我们提出了一种新的度量标准,即加权法律安全评分($LSS_{eta}$),综合了 LLM 的公平性和准确性。我们通过考虑 LLM 在二元法定推理任务中的性能以及在印度社会的各个不平等因素上的公平展现来评估 LLMs 的安全性。LLaMA 和 LLaMA--2 模型的任务性能和公平性得分表明,所提出的 $LSS_{eta}$ 度量标准可以有效决定模型在法律领域中的安全使用准备性。我们还提出了利用专门的法律数据集进行微调流程的方法,以减轻偏见并提高模型的安全性。对 LLaMA 和 LLaMA--2 模型的微调流程提高了 $LSS_{eta}$,提高了它们在印度法律领域中的可用性。我们的代码已公开发布。
Feb, 2024
为了推动现有 LLMs 遗忘方法的发展并解决其局限性,本文提出了 PISTOL 管道来编制多场景数据集用于基准测试结构化 LLMs 遗忘,并使用 PISTOL 生成的样本数据集进行了四种不同遗忘方法在 Llama2-7B 和 Mistral-7B 模型上的基准测试,以揭示在有效和鲁棒地移除高度相互连接的数据、批处理数据或偏向特定领域的数据时所面临的主要挑战,并强调预训练模型的选择如何影响遗忘效果。该工作不仅推动了我们对当前 LLMs 遗忘方法的局限性的理解,并提出了未来的研究方向,还为领域内的持续探索和验证提供了可复制的框架。
Jun, 2024
模型诱发的分布漂移(MIDS)会导致模型输出在几代模型的过程中污染新的模型训练集。我们介绍了一个跟踪多个代际 MIDS 的框架,发现它们可能导致性能、公平性和边缘化群体代表性的损失,即使在最初没有偏见的数据集中。尽管存在这些负面后果,但我们通过一种称为算法修复(AR)的框架来发现模型如何用于数据生态系统中的正面、有意的干预,以弥补历史歧视。我们模拟 AR 干预,通过精心策划的随机梯度下降训练批次来演示 AR 如何改善模型和数据生态系统中的不公平现象。我们的工作对于识别、缓解和追究由机器学习系统本质上中立客观的观点所可能带来的不公平反馈循环迈出了重要的一步。
Mar, 2024
利用大型语言模型(LLM)在各种下游应用中进行分类等工作至关重要,通过公平性可以确保包容性,基于种族、性别等因素实现平等代表和促进负责任的人工智能部署。本研究引入了一个框架来概述与各种公平性定义相一致的公平性规定,每个定义均由不同程度的抽象调控。我们通过在流程中将公平规则纳入,并使用 RAG 选择上下文演示来探索上下文学习的配置和过程。通过与不同 LLM 的实验比较,发现 GPT-4 在准确性和公平性方面的结果都优于其他模型。本研究是利用 LLMs 通过上下文学习实现预测任务公平性的早期尝试之一。
Feb, 2024