数据流中的差分隐私聚类

Jul, 2023

Differentially Private Clustering in Data Streams

Alessandro Epasto, Tamalika Mukherjee, Peilin Zhong

TL;DR论文提出了不同隐私性水平的 k-means 和 k-median 流式聚类算法，采用核心集算法作为黑盒子并使用多项式空间达到恒定乘性错误和多项式加性错误。

Abstract

The streaming model is an abstraction of computing over massive data streams, which is a popular way of dealing with large-scale modern data analysis. In this model, there is a stream of data points, one after the other. A streaming algorithm is only allowed one pass over the data stream, and the goal is to perform some analysis during the stream while using

streaming algorithm clustering differential privacy coreset data privacy

发现论文，激发创造

基于分层分离树的可扩展差分隐私聚类

通过利用树嵌入和标准的降维技术，我们提出了一种高效易实现的算法，能够解决 $k$- 中位数和 $k$- 均值的私有聚类问题，具有很好的时间和空间复杂度，适用于大规模分布式计算环境，并有可观的隐私保障.

Jun, 2022

连续观察下的聚类差分隐私

我们考虑在 $ R^d $ 中进行隐私数据集聚类的问题

Jul, 2023

本地隐私 k-Means 聚类

该研究设计了一种新的算法，用于处理欧几里得 k - 均值问题的差分隐私，通过本地模型，可以大幅降低加性误差，同时保持乘性误差不变。

Jul, 2019

PrivStream: 流式差分隐私数据的算法

我们提出了一种用于在线流式数据生成的差分隐私合成算法，重点针对空间数据集。此外，我们提供了一个针对多个查询的在线选择性计数的通用框架，为查询回答和合成数据生成等多个任务提供基础。我们验证了算法在现实世界和模拟数据集上的实用性。

Jan, 2024

数据流中的相关聚类

本文研究动态数据流模型下相关聚类问题，结合线性草图和凸规划与抽样技术提出 O (n・polylog n)-space 近似算法，解决了自然问题。

Dec, 2018

带有恒定乘性误差的差分隐私 k 均值算法

本研究针对欧几里得 k 均值问题，设计了新的差分隐私算法，其在中心模型和本地模型中均获得了显著提高的误差保证，并且还能计算私有 corsets 来处理 k 均值聚类问题。

Apr, 2018

差分隐私 $k$- 均值聚类

本研究比较交互式和非交互式方法在差分隐私数据分析中的权衡，并提出了一种混合方法。通过 $k$-means 聚类作为一个例子，该方法首先使用非交互式机制发布数据集的摘要，然后使用标准 $k$-means 聚类算法学习聚类中心，最后使用交互式方法来进一步改进这些聚类中心。我们分析了交互式和非交互式方法的误差行为，并使用这种分析来决定如何分配隐私预算，大量实验结果支持我们的分析，并证明我们方法的有效性。

Apr, 2015

流式和分布式大稀疏数据的 k-Means

一个可证明近似稀疏大数据 K-means 问题的流式算法及其性能提升结果，应用了一种稀疏的 (k, ε) 子集算法，可在不依赖于数据和维度的情况下，精确地计算每个点到 k 个中心的平方距离之和，从而使得在离线设置下的启发式算法的性能得到了大幅提升。

Nov, 2015

数据流的差分隐私集成分类器

该论文提出了一种基于隐私保护的集成学习方法，旨在应对连续数据流且涉及数据漂移的场景，该方法可以应对不断增长的数据流以及模型的升级更新，并适用于不同类型的预训练隐私分类 / 回归模型。在实际和模拟数据集上进行的实验表明，在不同的隐私、概念漂移和数据分布设置下，该方法表现优异。

Dec, 2021

FastLloyd: 基于差分隐私的联邦式、准确、安全、可调整的 $k$-Means 聚类

在水平联邦环境中，我们研究了隐私保护的 k-means 聚类问题，并通过综合差分隐私和安全计算的方法提出了一个更快速、更加隐私安全和更准确的设计。

May, 2024