检索系统中公共和私有数据的推理
本研究提出了两个结果,第一个结果说明了在 Kearns' SQ 模型中,对一组统计查询 C 生成错误率较小的所有答案需要的统计查询次数是对偶学习复杂度;第二个结果能高效地解决问题,只要能够通过子模函数描述 C 的答案集。这两个结果对隐私保护数据分析产生了积极的应用,使其得到了重大进展。
Nov, 2010
提出了一种实用的差分隐私算法,可以回答高维数据集上的大量查询,并将计算困难的步骤封装为一个简洁定义的整数规划问题,以实现高效的回答。通过在Netflix数据集上的实验,证明了该算法的精度和隐私性定理,并提出了比现有技术显著改进的方案。
Feb, 2014
本文介绍了PrivacyQA数据集,以及采用神经网络进行隐私政策问题回答的方法和挑战。PrivacyQA数据集包括1750个问题和3500个相关答案的专业注释,研究表明,当前的神经网络方法在回答隐私政策问题上存在诸多问题,该数据集为未来的问题回答系统提供了巨大的改进空间。
Nov, 2019
本文提出了一种名为PMW^Pub的新模型,利用不同分布的公共数据作为先验信息,从而提高数据隐私性查询的准确性和性能。该模型的实验结果表明,它能够在保持数据安全性的同时,在高维数据领域中实现有效的统计查询。
Feb, 2021
提出了一种新的算法,用于发布对包括k路边际在内的非常大量的统计查询回答,该算法采用连续松弛的投影机制,使其在隐私数据集上回答查询并尝试找到最接近噪声回答的合成数据集,并通过不断适应地发现在其(松弛的)合成数据上具有高误差的查询,以达到节省隐私预算的目的,通过使用ML优化技术和工具,该方法在许多情况下优于现有算法。
Mar, 2021
本文通过集成检索模型和利用多个预训练语言模型及去噪防护,开发了一种新型数据增强框架,以捕获未标记的策略文件中的相关文本段,并扩展训练集中的正面示例。使用此增强数据,该研究在PrivacyQA基准测试中将现有水平提高了10% F1,实现了50%的新水平。(其中,F1是一种综合度量,用于评估二元分类器的准确性。)
Apr, 2022
我们提出了P-Bench,这是一个用于经验和直观地量化语言模型的隐私泄漏的多角度隐私评估基准,并对各种隐私保护语言模型进行公平和直观的评估。
Nov, 2023
在本文中,我们从信息流控制的角度描述了机器学习系统,利用元数据,如访问控制策略来定义明确的隐私和机密性保证,通过比较两种不同方法,即针对每个用户进行微调模型和在推理时访问用户特定数据集的检索增强模型,我们证明检索增强架构可以在满足严格的非干扰性保证的同时提供最佳的效用、可扩展性和灵活性。
Nov, 2023
本文提出了 PrivacyRestore 来保护 LLM 推理过程中用户输入的隐私信息,通过激活控制和隐私恢复技术实现,实验结果表明 PrivacyRestore 能在保护隐私信息的同时保持良好的性能和推理效率。
Jun, 2024