公平 SISA：集成后处理以提高 LLMs 的公平性

Dec, 2023

公平 SISA：集成后处理以提高 LLMs 的公平性

FairSISA: Ensemble Post-Processing to Improve Fairness of Unlearning in LLMs

Swanand Ravindra Kadhe, Anisa Halimi, Ambrish Rawat, Nathalie Baracaldo

TL;DR这篇论文研究了大型语言模型（LLMs）的反学习和公平性之间的相互作用，特别关注了一种称为 SISA 的流行反学习框架的性能 - 公平性权衡，并提出了后处理偏差缓解技术用于 SISA 生成的模型集合，证明其中的一种方法是模型集合的最佳公平预测器，在实验证明了我们提出的后处理框架 'FairSISA' 的有效性。

Abstract

Training large language models (LLMs) is a costly endeavour in terms of time and computational resources. The large amount of training data used during the unsupervised pre-training phase makes it difficult to verify all data and, unfortunately, undesirable data may be ingested during

large language models unlearning fairness sisa post-processing

发现论文，激发创造

机器遗忘

该研究提出了一种名为 SISA 训练的框架，可在不同数据集、算法和难度的情况下，通过限制特定数据点在模型训练中的影响，加速机器学习模型的「忘记」过程，有助于实现更有效的数据治理。

Dec, 2019

图形遗忘

本文提出了一种专门针对图数据的新型机器取消学习框架 GraphEraser，包括两种新颖的图分区算法和一种基于学习的聚合方法。研究表明，与 SISA 相比，GraphEraser 在取消学习效率和模型效用方面都具有较大优势。

Mar, 2021

无算法公平的七年回溯

本文通过数千次模型评估，并采用一种叫做 “取消后处理方法” 的简单理念，对多篇针对改进后处理基线的论文进行实证评估，发现在不同的表格数据集上所实现的公平性 - 准确性 Pareto 前沿线包含了所有现有的其他改进方法。作者还纠正了之前的两个常见方法学错误。

Jun, 2023

通过机器遗忘来避免版权侵权

在这篇论文中，我们提出了一种稳定的序列遗忘（SSU）框架，该框架使用任务向量，通过引入额外的随机标签损失和应用基于梯度的权重显著性映射，以更稳定的方式在不同的时间步骤中从 LLMs 中删除受版权保护的内容，实验证明 SSU 在遗忘效果和保持模型的一般知识之间取得了良好的平衡。

Jun, 2024

大型语言模型公平性调研

大语言模型带来了强大的性能和发展前景，并广泛应用于现实世界。然而，这些模型可能从未经处理的训练数据中捕捉到社会偏见，并将其传播到下游任务。本文全面回顾了关于大语言模型中的公平性的相关研究，介绍了中等规模的模型和大规模的模型分别从内在偏见和外在偏见的角度引入了评估指标和去偏方法，并讨论了公平性发展中的挑战和未来方向。

Aug, 2023

集成预处理算法能提高机器学习的公平性吗？

本文研究了三种流行的公平性预处理算法并探讨了将它们组合成更加健壮的预处理集成的潜力，为实践者更好地选择公平算法提供经验教训。

Dec, 2022

InSaAF：通过准确性和公平性加强安全性 | LLM 是否准备好进入印度法律领域？

近年来，语言技术和人工智能的最新进展在法律领域提出了众多语言模型，从预测判决到生成摘要等多种任务。本研究探讨了大规模语言模型（LLMs）在印度社会因素参与的法律任务中的能力。我们提出了一种新的度量标准，即加权法律安全评分（$LSS_{eta}$），综合了 LLM 的公平性和准确性。我们通过考虑 LLM 在二元法定推理任务中的性能以及在印度社会的各个不平等因素上的公平展现来评估 LLMs 的安全性。LLaMA 和 LLaMA--2 模型的任务性能和公平性得分表明，所提出的 $LSS_{eta}$ 度量标准可以有效决定模型在法律领域中的安全使用准备性。我们还提出了利用专门的法律数据集进行微调流程的方法，以减轻偏见并提高模型的安全性。对 LLaMA 和 LLaMA--2 模型的微调流程提高了 $LSS_{eta}$，提高了它们在印度法律领域中的可用性。我们的代码已公开发布。

Feb, 2024

PISTOL: LLMs 结构解学的数据集编译流程

为了推动现有 LLMs 遗忘方法的发展并解决其局限性，本文提出了 PISTOL 管道来编制多场景数据集用于基准测试结构化 LLMs 遗忘，并使用 PISTOL 生成的样本数据集进行了四种不同遗忘方法在 Llama2-7B 和 Mistral-7B 模型上的基准测试，以揭示在有效和鲁棒地移除高度相互连接的数据、批处理数据或偏向特定领域的数据时所面临的主要挑战，并强调预训练模型的选择如何影响遗忘效果。该工作不仅推动了我们对当前 LLMs 遗忘方法的局限性的理解，并提出了未来的研究方向，还为领域内的持续探索和验证提供了可复制的框架。

Jun, 2024

公平反馈循环：在合成数据上进行训练增强了偏见

模型诱发的分布漂移（MIDS）会导致模型输出在几代模型的过程中污染新的模型训练集。我们介绍了一个跟踪多个代际 MIDS 的框架，发现它们可能导致性能、公平性和边缘化群体代表性的损失，即使在最初没有偏见的数据集中。尽管存在这些负面后果，但我们通过一种称为算法修复（AR）的框架来发现模型如何用于数据生态系统中的正面、有意的干预，以弥补历史歧视。我们模拟 AR 干预，通过精心策划的随机梯度下降训练批次来演示 AR 如何改善模型和数据生态系统中的不公平现象。我们的工作对于识别、缓解和追究由机器学习系统本质上中立客观的观点所可能带来的不公平反馈循环迈出了重要的一步。

Mar, 2024

少样本公平性：揭示 LLM 对公平感知分类的潜力

利用大型语言模型（LLM）在各种下游应用中进行分类等工作至关重要，通过公平性可以确保包容性，基于种族、性别等因素实现平等代表和促进负责任的人工智能部署。本研究引入了一个框架来概述与各种公平性定义相一致的公平性规定，每个定义均由不同程度的抽象调控。我们通过在流程中将公平规则纳入，并使用 RAG 选择上下文演示来探索上下文学习的配置和过程。通过与不同 LLM 的实验比较，发现 GPT-4 在准确性和公平性方面的结果都优于其他模型。本研究是利用 LLMs 通过上下文学习实现预测任务公平性的早期尝试之一。

Feb, 2024