不断增长数据的自适应数据分析

May, 2024

Adaptive Data Analysis for Growing Data

Neil G. Marchant, Benjamin I. P. Rubinstein

TL;DR数据重复使用中存在过拟合和统计结果的有效性方面的挑战。过去的研究表明，通过不同 ially private 算法与数据交互可以减轻过拟合，实现最坏情况下的泛化保证，并具有渐近最佳的数据要求。然而，之前的工作假设数据是静态的，无法适应数据随时间增长的情况。本文填补了这一空白，提出了自适应分析在动态数据环境中的第一个泛化界限。我们允许分析人员根据当前数据大小以及先前的查询和响应进行自适应调度。我们还结合了时间变化的经验准确性界限和机制，使数据积累时能够提供更紧密的保证。在批量查询设置中，我们的界限的渐近数据要求随自适应查询数量的平方根增长，与之前的工作改善静态设置中的数据分割相匹配。我们通过采用裁剪高斯机制实例化我们的界限，并在经验上优于由静态界限组成的基线。

Abstract

Reuse of data in adaptive workflows poses challenges regarding overfitting and the statistical validity of results. Previous work has demonstrated that interacting with data via differentially private algorithms

data reuse adaptive workflows overfitting generalization bounds dynamic data setting

发现论文，激发创造

自适应数据分析与留存重用中的泛化

本文针对过拟合问题，提出了一种适用于自适应数据分析的算法，使用保留集重复验证后得到的假设，避免了过度拟合问题，同时利用描述长度和差分隐私，展示了在适应性场景下保证统计有效性的方法，并通过近似最大信息的方法将这些方法统一起来。

Jun, 2015

自适应数据分析中维护统计学有效性

关于如何在自适应数据分析中保证统计推断的有效性的研究，使用隐私保护技术协调估计值，并在估计指数数量的期望时取得了指数级的改进，适用于多重假设检验和虚假发现率控制。

Nov, 2014

平衡对抗模型下的自适应数据分析

本文研究了在自适应数据分析中使用受限制的对手模型，证明了使用标准公钥加密假设的更强的困难性假设是不可避免的，并提高了以前的下界质量。

May, 2023

基于稳定中位数的自适应估计器泛化

本文主要介绍了一种基于近似中位数算法的算法来估算统计数据集的普适性，该算法满足差分隐私的强稳定性保证，解决了统计数据集在自适应问题上的泛化保证的新方法。

Jun, 2017

具有贝叶斯差分隐私的自适应统计学习

通过使用贝叶斯差分隐私技术，本研究表明，对于存在不相关性和相关性的数据样本，通过扰动和协调估计值可在自适应统计学习中重复使用保留数据集。

Nov, 2019

利用差分隐私减轻自适应数据收集中的偏见

通过不同隐私保护数据收集，可以解决由算法偏见导致的数据收集问题，这不仅限于简单的数值类数据，也包括了复杂数据的假设检验。而且，该方法还能够计算数值类数据（如随机 bandit 算法的经验平均数）的偏差，并校正根据适应性收集的数据进行的假设检验的 p 值。此外，存在具有近优后悔界的差分私有 bandit 算法，我们利用现有的理论在简单随机情况下进行了应用，并为线性背景 bandits 提供了新的分析。我们通过实验证明了理论结果。

Jun, 2018

重新审视差分隐私线性回归：无界域中的最优自适应预测和估计

本文研究了在差分隐私约束下的线性回归问题，恢复了特征、标签和系数域在优化误差和估计误差中的正确依赖性，并提出了两种简单修改的差分隐私算法：后验采样和充足统计扰动，并展示它们可升级为能针对每个实例利用数据相关量并行为几乎最优的自适应算法。作者在 36 个数据集上进行了广泛的实验，结果表明两种自适应算法优于现有技术。

Mar, 2018

交互式数据分析中的虚假发现预防是困难的

论文表明，在自适应环境下，维护统计查询的计算有效性和正确性是计算难度的源泉，这对现今大型协作研究环境中防止错误发现的挑战具有本质性质。

Aug, 2014

对抗训练的数据依赖稳定性分析

通过加入数据分布信息，我们提供了基于随机梯度下降的对抗训练的泛化界限，分析了数据分布的变化和对抗攻击的影响。

Jan, 2024

自适应在线学习

该论文提出了一种普遍框架，用于研究在线学习框架下的自适应遗憾界限，包括模型选择界限和数据相关界限；该框架基于顺序复杂度量的修正，并使用单侧尾不等式来界定此界限，并在线性优化和在线 PAC-Bayes 定理中进行了实例化。

Aug, 2015