May, 2024

不断增长数据的自适应数据分析

TL;DR数据重复使用中存在过拟合和统计结果的有效性方面的挑战。过去的研究表明,通过不同 ially private 算法与数据交互可以减轻过拟合,实现最坏情况下的泛化保证,并具有渐近最佳的数据要求。然而,之前的工作假设数据是静态的,无法适应数据随时间增长的情况。本文填补了这一空白,提出了自适应分析在动态数据环境中的第一个泛化界限。我们允许分析人员根据当前数据大小以及先前的查询和响应进行自适应调度。我们还结合了时间变化的经验准确性界限和机制,使数据积累时能够提供更紧密的保证。在批量查询设置中,我们的界限的渐近数据要求随自适应查询数量的平方根增长,与之前的工作改善静态设置中的数据分割相匹配。我们通过采用裁剪高斯机制实例化我们的界限,并在经验上优于由静态界限组成的基线。