总变差距离估计像概率推断一样简单
本文基于判别性方法提出了一种评估生成数据保真度的方法,利用总变差距离作为有效的度量。通过定量地表征两个分布分类的贝叶斯风险和它们的总变差距离的关系,实现了总变差距离的估计。特别地,本文建立了关于两个高斯分布总变差距离估计误差收敛速率的理论结果。通过选择特定的分类假设类,能够实现总变差距离的快速收敛速率。当两个高斯分布之间的分离度越大时,估计总变差距离的准确性越高,这一现象也通过广泛的模拟得到了实证验证。最后,我们将该判别性估计方法应用于使用 MNIST 数据集的合成图像数据的保真度排序。
May, 2024
我们提出了一种实用的方法,使用一个未在训练中暴露给模型的小规模保留数据集来审计差分隐私(DP)保证。我们的方法利用得分函数(如训练期间使用的损失函数)估计使用训练数据子集和保留数据集获得的得分之间的总变差(TV)距离,在了解底层 DP 训练算法的一些元信息的情况下,这些 TV 距离值可以转换为任意 δ 的(𝜖, δ)保证。我们表明,这些得分分布渐近地为底层训练算法的 DP 保证提供下界,但基于实用性的原因,我们对其进行了一次估计。我们指定导致高概率下界 DP 保证的条件。为了估计得分分布之间的 TV 距离,我们使用了基于直方图的简单密度估计方法。我们表明,TV 距离提供了一个非常接近最优鲁棒估计器,并具有一个误差率𝒪(k^(−1/3)),其中 k 是总样本数。基准数据集上的数值实验说明了我们方法的有效性,并展示了对于黑盒审计的改进。
Jun, 2024
本文讨论如何通过总变差(TV)距离度量学习规则的输出相似性,提出了 TV 不可辨认性的信息论等价性和统计学放大以及提升算法,并研究了基于 TV 不可辨认性的假设类可学习性。
May, 2023
本文研究了电视正则化,对于 l_p - 范数 TV 提出了有效的算法,特别是对于 l_1 - 范数 TV 提出了一种新的几何分析方法,揭示了与 taut-string 方法的未知联系,并利用我们的几何引导实现了高效的 1D-TV 求解器,提供了更复杂(二维或多维)电视求解器的支撑,并探讨了通过广泛的实验在图像和视频降噪方面的优越性。
Nov, 2014
本研究提出了一种新的检测离群值的高效算法,用于聚类混合的高斯模型,这种方法是鲁棒的,可以处理在数据中有少部分的失真或错误,它依赖于 TV 距离和方差有限度等假定条件,并使用极小化两种偏差的方法来修复度量误差和离群值异常。
May, 2020
研究了在高维高斯混合假设下,少量数据受到对手损坏的情况下的高效可学习性,提出了一种多项式算法并证明了在成分经过配对后在总变异距离上分离时,该问题是可多项式学习的;这种算法是第一个可处理 $k=2$ 的高斯混合问题的多项式时间算法,并使用基于 Sum-of-Squares 证明算法的技术,提出了一种新的用于高斯混合的鲁棒可辨识性证明方法和使用 SoS 可证明的反集中方法和新的特征距离度量组来解决问题。
May, 2020
本研究提出了一种新算法,基于随机梯度的变分程序来进行概率编程中的近似推理,特别适用于高度结构化的分布。我们展示了如何自动推导平均场概率程序并优化它们,并证明我们的方法比其他算法提高了推理效率。
Jan, 2013
我们研究了学习无向高斯树和有向高斯多叉树的最优算法,考虑了分布学习和结构学习两个问题,通过推导出显式的有限样本保证并给出匹配的下界证明两种方法的最优性,同时进行了数值实验以比较各种算法的性能表现。
Feb, 2024