P-Bench: 语言模型多层隐私评估基准
利用特定域数据对大型语言模型进行微调时,存在个人身份信息敏感度的问题。为了解决这一挑战,我们引入了隐私保护语言模型(PPLM),通过有效注入特定领域知识来保护数据隐私。我们的工作提供了模型设计理论分析,并详细介绍了诸如语料库整理、基于惩罚性失真的训练损失和基于指令的微调等技术。在各种数据集和场景下的广泛实验证实了我们方法的有效性。特别是,正负样本指令微调成为一种有潜力的方法,可以在增强模型知识的同时保护私人数据。我们的工作突显了大型语言模型作为强大隐私保护学习器的潜力。
Oct, 2023
利用简单且可扩展的 Perplexity 和 N-gram 精度两个度量指标来检测潜在数据泄漏,揭示了大规模语言模型在数学推理领域存在的数据误用问题,并提出了关于模型文档、基准设置和未来评估的几点建议,其中包括提出 “基准透明卡” 以促进透明度和语言模型的健康发展。
Apr, 2024
对自然语言生成任务中使用大型语言模型进行用户级差分隐私保护的设计选择进行系统评估,重点研究两种实现用户级差分隐私保证的机制,即群体隐私和用户级 DP-SGD,包括数据选择策略和参数调优,以实现最佳的隐私 - 效用平衡。
Jun, 2024
本文介绍了一项关于 Visual Language Models(VLMs)处理隐私敏感信息的研究,引入了一个新的基准 PrivBench,并在其中评估了 10 个最先进的 VLMs。研究结果表明,VLMs 对隐私的理解普遍有限,因此提出了一个新的训练数据集 PrivTune,通过在此数据集上调整预训练的 VLMs,取得了对敏感内容的强大识别能力,并说明隐私调整几乎不影响 VLMs 在标准基准测试上的性能。总的来说,本文提出了使 VLMs 在处理现实世界数据时安全有效的重要挑战,并提供了首次构建隐私感知 VLMs 的简单方法。
May, 2024
本文调查了一系列流行模型中预训练表示所编码的个人信息的程度,并展示了模型越复杂和数据越多,可能出现数据泄露的正相关性。作者对一种大型多语言数据集上的情感分析特征进行了广泛覆盖的比较和评估,结果表明,隐私保护方法的使用非常重要。作者还发现高度隐私保护的技术(如差分隐私)可能会对模型效用产生严重影响,可以使用混合或度量隐私方法来解决。
Apr, 2022
我们通过对改进的 DPML 算法的效用和防御能力对成员推断攻击进行了整体度量,在图像分类任务中我们首次提出了具有机器学习生命周期其中改进的分类法的分类体系。我们通过使用实验来表明了 DP 能够有效地抵御成员推断攻击,并且敏感性绑定技术,如每个样本梯度剪辑,在防御中起着重要作用。 标签 DP 算法可以实现较小的效用损失,但对攻击十分脆弱。我们的研究结果可以支持数据拥有者使用 DPMLBench 部署 DPML 算法,并作为研究人员和实践者的基准工具。
May, 2023
大型语言模型的评估常常会受到不适当使用评估基准和误导性解读评估结果等问题的影响。本研究通过大量实验发现,评估基准泄漏会极大地提高评估结果,从而导致对模型性能的不可靠评估。最后,为大型语言模型的开发者和基准维护者提出了一些建议。
Nov, 2023
LLMs 在各领域越来越普及,因此迫切需要改进的 NLP 基准来涵盖各个学科的必要知识。为了解决这个问题,作者提出了 psybench,这是第一个详尽覆盖研究领域所需知识的全面中文评估套件,通过多项选择题深入评估模型在心理学中的优势和劣势,并发现不同领域的性能存在显著差异,展示了测试集中知识不均衡可能导致结果偏斜的风险,仅 ChatGPT 模型的平均准确率超过 70%,表明仍有很大的改进空间。总之,psybench 将有助于对基本模型的优势和劣势进行全面评估,并在心理学领域的实际应用中提供支持。
Nov, 2023