检索系统中公共和私有数据的推理

Mar, 2022

检索系统中公共和私有数据的推理

Reasoning over Public and Private Data in Retrieval-Based Systems

Simran Arora, Patrick Lewis, Angela Fan, Jacob Kahn, Christopher Ré

TL;DR该论文提出了适用于不同隐私范围下的公共-私人自回归信息检索 (PAIR) 隐私框架，并介绍了 ConcurrentQA 作为第一个需要多数据分布并发检索的 QA 基准。同时，论文发现现有系统在处理该检索设置时存在着很大的隐私与性能权衡问题，并研究如何缓解这些问题。

Abstract

Users and organizations are generating ever-increasing amounts of private data from a wide range of sources. Incorporating private data is important to personalize open-domain applications such as question-answering, fact-checking, and personal assistants. State-of-the-art systems for these tasks explicitly retrieve relevant information to a user question fr

发现论文，激发创造

私密发布合取和统计查询障碍

本研究提出了两个结果，第一个结果说明了在 Kearns' SQ 模型中，对一组统计查询 C 生成错误率较小的所有答案需要的统计查询次数是对偶学习复杂度；第二个结果能高效地解决问题，只要能够通过子模函数描述 C 的答案集。这两个结果对隐私保护数据分析产生了积极的应用，使其得到了重大进展。

Nov, 2010

双重查询：针对高维数据的实用私有查询发布

提出了一种实用的差分隐私算法，可以回答高维数据集上的大量查询，并将计算困难的步骤封装为一个简洁定义的整数规划问题，以实现高效的回答。通过在Netflix数据集上的实验，证明了该算法的精度和隐私性定理，并提出了比现有技术显著改进的方案。

Feb, 2014

隐私政策问答: 结合计算和法律视角

本文介绍了PrivacyQA数据集，以及采用神经网络进行隐私政策问题回答的方法和挑战。PrivacyQA数据集包括1750个问题和3500个相关答案的专业注释，研究表明，当前的神经网络方法在回答隐私政策问题上存在诸多问题，该数据集为未来的问题回答系统提供了巨大的改进空间。

Nov, 2019

利用公共数据实现实用的私有查询发布

本文提出了一种名为PMW^Pub的新模型，利用不同分布的公共数据作为先验信息，从而提高数据隐私性查询的准确性和性能。该模型的实验结果表明，它能够在保持数据安全性的同时，在高维数据领域中实现有效的统计查询。

Feb, 2021

通过自适应投影实现差分隐私查询发布

提出了一种新的算法，用于发布对包括k路边际在内的非常大量的统计查询回答，该算法采用连续松弛的投影机制，使其在隐私数据集上回答查询并尝试找到最接近噪声回答的合成数据集，并通过不断适应地发现在其（松弛的）合成数据上具有高误差的查询，以达到节省隐私预算的目的，通过使用ML优化技术和工具，该方法在许多情况下优于现有算法。

Mar, 2021

隐私政策问答的检索增强数据增强技术

本文通过集成检索模型和利用多个预训练语言模型及去噪防护，开发了一种新型数据增强框架，以捕获未标记的策略文件中的相关文本段，并扩展训练集中的正面示例。使用此增强数据，该研究在PrivacyQA基准测试中将现有水平提高了10% F1，实现了50%的新水平。（其中，F1是一种综合度量，用于评估二元分类器的准确性。）

Apr, 2022

检索式语言模型的隐私影响

本文研究检测基于k最近邻的检索型语言模型对隐私的风险，探索隐私安全的最佳设计和培训程序以在效用和隐私之间取得平衡，并提供了隐私风险缓解策略。

May, 2023

P-Bench: 语言模型多层隐私评估基准

我们提出了P-Bench，这是一个用于经验和直观地量化语言模型的隐私泄漏的多角度隐私评估基准，并对各种隐私保护语言模型进行公平和直观的评估。

Nov, 2023

从信息流控制的角度重新思考机器学习管道中的隐私

在本文中，我们从信息流控制的角度描述了机器学习系统，利用元数据，如访问控制策略来定义明确的隐私和机密性保证，通过比较两种不同方法，即针对每个用户进行微调模型和在推理时访问用户特定数据集的检索增强模型，我们证明检索增强架构可以在满足严格的非干扰性保证的同时提供最佳的效用、可扩展性和灵活性。

Nov, 2023

PrivacyRestore: 大型语言模型中的隐私保护推断：通过隐私去除和恢复

本文提出了 PrivacyRestore 来保护 LLM 推理过程中用户输入的隐私信息，通过激活控制和隐私恢复技术实现，实验结果表明 PrivacyRestore 能在保护隐私信息的同时保持良好的性能和推理效率。

Jun, 2024