推断时的数据最小化

May, 2023

Data Minimization at Inference Time

Cuong Tran, Ferdinando Fioretto

TL;DR本文考虑在隐私、准确性和个性化之间的权衡，通过提供一种有效的顺序算法，确定在个性化背景下仅需披露小部分特征即可提供和利用敏感数据，并演示了在不同学习任务中，个体只需披露 10% 的属性即可保持与全集的精度相同。

Abstract

In domains with high stakes such as law, recruitment, and healthcare, learning models frequently rely on sensitive user data for inference, necessitating the complete set of features. This not only poses significant privacy risks for individuals but also demands substantial human effor

privacy risks feature selection predictive accuracy personalized setting sequential algorithm

发现论文，激发创造

测试时个性化隐私审计和优化

本文探讨了在重要领域（如辅助法律、银行、招聘和医疗抉择的学习模型），是否需要全部的输入特征才能在测试时返回准确的预测，并表明在个性化的环境下，每个人仅需要发布一小部分的这些特征就能保证系统准确度不受影响。研究显示，在一些学习任务中，个体只需提交不到总数据的 10％即可确保与使用完整信息的模型同样准确。同时，本文还提供了一个高效的序列算法来选择哪些属性应由每个个体提供。

Jan, 2023

隐私保护预测

探讨在分类和回归等多种模型中，为实现个体预测隐私保护所需的成本，以及通过训练多个模型并使用标准的聚合技术来预测，以降低聚合步骤引入的开销，并建立所有不同隐私预测算法的强广义保证，从而研究机器学习中差分隐私的最优样本调整量。

Mar, 2018

Redactor：基于数据和个性化的抵抗推理攻击的防御

研究信息泄露的问题，提出了利用针对性误导生成来强化机器学习模型对推理攻击的鲁棒性，即通过插入新数据来稀释原数据，使用多个分类器的决策边界进行概率标注。

Feb, 2022

不是所有的特征都是相等的：发现维护预测隐私所需的基本特征

本研究提出了 Cloak 框架，其通过梯度优化方法在输入特征空间中发现功能性预测模型所需的子集，并使用保证效用的常量值抑制其余特征，从而减少机器学习服务中数据泄露和隐私问题。实验结果表明，Cloak 可将输入特征与筛选后的表征之间的互信息降低 85.01％，对效用的影响几乎可以忽略不计（1.42％）。

Mar, 2020

人类直觉作为防御属性推断的手段

评估了人们修改公开数据以保护隐私的能力，发现人们的效力不如人工智能。强调现代 AI 时代需要算法支持来保护个人信息。

Apr, 2023

我选择不透露：用户保护个人数据是否受到惩罚？

本文研究了在个人选择共享可选信息和选择不共享个人数据的情况下，如何确保公正的结果。为解决此问题，提出 Optional Feature Fairness (OFF) 的概念和数据增强策略，并在多个挑战性实际任务中进行了广泛分析。

Oct, 2022

融合个人知识于测试时间预测

该研究报告介绍了人工特征整合的问题，该问题提供了一种将非专业领域用户的重要个人知识纳入到机器学习预测中的方法，并通过用户故事和与现有方法的比较，形式化地描述了该问题，为未来的技术解决方案奠定了基础，并在半现实环境中进行了一个简单版本的解决方案的概念验证研究。

Jun, 2024

差分隐私学习需要更好的特征（或许更多数据）

在许多经典视觉任务中，使用不同 ially private 机器学习还没有达到其 'AlexNet 时刻 '：对于手工特征训练的线性模型，其在中等隐私预算下的性能明显优于端到端的深度神经网络。为了超越手工特征的表现，我们展示私人学习要么需要更多私人数据，要么需要访问从相似领域的公共数据学到的特征。我们的工作引入了简单但强大的基线，用于不同 ially private 学习，这可以指导未来在这一领域的进展评估。

Nov, 2020

关于对个体进行数据驱动的推论时增强透明度和控制力

本文通过分析社交网站（如 Facebook）上可被利用用以预测个人特征的信息，提出了一种能够提供对某些统计模型中对用户的推断的透明度以及控制来隐瞒个人信息以控制信息泄露的方法，并利用该方法检查用户是否能够真正实现这一隐私保护的目标。在应用于大量真实用户 Facebook 数据的过程中，我们发现仅需隐藏用户 “Facebook Likes” 数据的一小部分即可抑制有关其个人特征的推断，然而，我们也发现企业可以通过改变用户模型来增加隐瞒的难度。

Jun, 2016

从数据泄露和遗忘中对法律的启示

大型语言模型（LLMs）在隐私方面存在关注，因为它们会记忆训练数据（包括个人可识别信息（PII）如电子邮件和电话号码），并在推理过程中泄露。现有工作关注度较低，本研究表明精调模型不仅会泄露其训练数据，还会泄露在预训练阶段记忆的预训练数据（和 PII）。通过精调模型来进行预训练数据的遗忘和泄露使新的数据点变得容易被提取，给使用 LLMs 提供服务的公司带来了重大的隐私和法律问题。我们希望本研究能够在人工智能和法律界引发跨学科讨论，并针对这些问题制定相应的政策。

Jul, 2023