从差分隐私中减弱语言模型微调的偏见

Feb, 2024

从差分隐私中减弱语言模型微调的偏见

De-amplifying Bias from Differential Privacy in Language Model Fine-tuning

Sanjari Srivastava, Piotr Mardziel, Zhikhun Zhang, Archana Ahlawat, Anupam Datta...

TL;DR机器学习中公平性和隐私性是两个重要的价值观，通过差分隐私机制来限制个体训练数据对结果模型的影响，但我们发现差分隐私会加剧性别、种族和宗教偏见，而反事实数据增强法可以缓解差分隐私所引发的偏见扩大，因此差分隐私和反事实数据增强法可以同时维护公平性和隐私。

Abstract

fairness and privacy are two important values machine learning (ML) practitioners often seek to operationalize in models. →

fairness privacy machine learning differential privacy bias amplification

发现论文，激发创造

隐私的代价：探索其对人工智能公平性的双重影响

通过广泛的评估结果，我们证明不同隐私度对公平性的影响并非单调。相反，我们观察到准确性差异在机器学习过程中添加更多的差分隐私噪声（增强隐私）时初步增加，但在更高隐私水平下通过更多噪声后逐渐减小。此外，通过在差分隐私随机梯度下降机器学习方法中实施梯度剪裁，可以减轻隐私噪声对公平性的负面影响。这种缓和是通过较低的剪裁阈值来调节差异性增长实现的。

Apr, 2024

差分隐私对模型准确性影响不一

本文研究的 DP-SGD 算法在训练神经网络时，由于梯度裁剪和噪声加法等机制对复杂和少数类样本的影响更大，造成训练模型的准确率不公平，使 DP-SGD 算法不适用于存在不平衡类别数据的训练任务。

May, 2019

对局部差分隐私对公平性影响的系统和正式研究：初步结果

通过定量研究隐私保护机制差分隐私对机器学习模型公平性的影响，本研究提供了在不同的隐私级别和数据分布下，差分隐私能对模型公平性产生影响的界限，并确定了隐私减少歧视和增加歧视的情况，验证了理论发现在合成和现实世界数据集上的有效性。

May, 2024

FairDP：差分隐私下的合规公平性保障

本文介绍了 FairDP 机制，它是一种同时确保差分隐私和公平性的新型机制。 FairDP 通过为不同的个体群体独立训练模型，并使用群体特定的剪辑术语来评估和限制 DP 的差异影响来运行。在整个训练过程中，该机制逐步集成来自群体模型的知识，从而制定在下游任务中平衡隐私，实用性和公平性的综合模型。广泛的理论和实证分析验证了 FairDP 的功效，展示了与现有方法相比，模型实用性，隐私和公平性之间的权衡得到了改善。

May, 2023

差分隐私语言模型受益于公共预训练

通过微调基于公共语料库的模型来实现高质量和隐私保护的语言模型，提高私有领域的模型性能，让其成为可能。

Sep, 2020

数据不平衡对差分隐私的效用和公平性的影响：既非私密，也非公平

研究了不同程度数据不平衡和隐私保证对深度学习模型准确性和公平性的影响，并发现即使数据有小的不平衡和较宽松的隐私保证也会引起非公平性。

Sep, 2020

解锁差分隐私图像分类的准确度与公平性

预训练的基础模型经差分隐私微调可在下游任务中实现接近非隐私分类器的准确性，并且在四个数据集中实现与非隐私技术的准确性相差不多，包括两个医学成像基准数据集。此外，我们的隐私医学分类器在不同人口群体之间没有更大的性能差异。此里程碑使得差分隐私训练成为一项实用且可靠的技术，有潜力广泛应用于敏感数据的安全机器学习训练，同时保护个人隐私。

Aug, 2023

通过平坦性实现大型语言模型的隐私保护微调

在我们的研究中，我们揭示了 Differential Privacy（DP）技术在处理 Large Language Models（LLMs）的隐私和泛化之间的权衡中，DP 训练模型的损失平面的平坦程度起到了关键作用。我们进一步提出了一个全面的框架来强制执行适当的权重平坦度，从而大幅提高模型的泛化能力并保持竞争性的隐私保护。

Mar, 2024

用户级别差分隐私用于语言模型微调

对自然语言生成任务中使用大型语言模型进行用户级差分隐私保护的设计选择进行系统评估，重点研究两种实现用户级差分隐私保证的机制，即群体隐私和用户级 DP-SGD，包括数据选择策略和参数调优，以实现最佳的隐私 - 效用平衡。

Jun, 2024

在 NLP 模型中同时解决统计性别公平性和因果性别公平性

本研究评估了性别偏见的 NLP 模型的统计和因果去偏方法，发现这些方法在目标度量上有效减少了偏见，但不一定改善了其他偏见度量的结果。同时，我们展示了统计和因果去偏技术的组合能够减少通过两种类型的度量来衡量的偏见。

Mar, 2024