一般测量的依赖性度量约束探索偏差

Dec, 2016

一般测量的依赖性度量约束探索偏差

Dependence Measures Bounding the Exploration Bias for General Measurements

Jiantao Jiao, Yanjun Han, Tsachy Weissman

TL;DR提出了一种分析和量化自适应数据分析中偏差的方法，引入了一种新的依赖度量，同时保留了互信息的关键性质，并更有效地量化了具有重尾分布的探索偏差。

Abstract

We propose a framework to analyze and quantify the bias in adaptive data analysis. It generalizes that proposed by Russo and Zou'15, applying to measurements whose moment generating function exists, measurements with a finite $p$-norm, and measurements in general Orlicz spaces. We intr

bias adaptive data analysis dependence measure exploration bias heavy tailed distributions

发现论文，激发创造

利用信息控制偏差：数据探索过拟合的程度如何？

提出了一种基于信息使用的方法来量化和限制任意探索性分析的偏差和其他误差指标，在此基础上分析和评估了过滤、排名选择和聚类等特定探索性分析方式的偏差。同时，该方法引出了随机化技术，可以证明减少了探索偏差同时保留了数据分析效用，从而帮助解决科学中的可重复性危机。

Nov, 2015

信息论泛化界的统一框架

文中提出了一种利用概率去相关引理、对测度空间中的的概率测度进行对称化、配对和链化等技术来获得学习算法信息论泛化界限的一般性方法，进而得到新的期望值和高概率条件下泛化误差的上界，特别地，还包括了基于互信息、条件互信息、随机链和 PAC-Bayes 不等式等现有泛化界限的特例。此外，Fernique-Talagrand 上界也是一个特例。

May, 2023

量化依赖性：开发可解释测量的框架

提出了一种基于几个关键指导方针的依赖度量选择和开发框架，该框架旨在实现关系量化而非简单存在的确立，并重视解释性概念的重要性，并演示了如何实现更一般的信息度量以达到相同的目标。通过提供两个实际数据示例来说明并证明了该框架的有效性。

Feb, 2013

通过 Rényi、$f$-Divergences 和最大泄漏实现的广义误差界限

本文研究如何利用边缘分布和随机变量之间的依赖关系来估计概率事件的概率，并在自适应数据分析和学习理论中应用，其中包括 Sibson 的互信息、α- 散度、Hellinger 散度、f - 散度等多种方法，并将最大泄密量作为特例进行了研究。

Dec, 2019

通过数据依赖估计的信息理论广义绑定对 SGLD 的应用

本文改进了 Pensia，Jog 和 Loh (2018) 开始的有噪声迭代学习算法的逐步分析，并在 Bu，Zou 和 Veeravalli (2019) 的基础上最近扩展。我们主要的贡献是通过数据相关估计显著提高了随机梯度 Langevin 动力学的互信息界限。我们的方法基于互信息的变分特性和使用基于训练样本子集的数据相关先验来预测小批量梯度。我们的方法在 Russo 和 Zou (2015)、Xu 和 Raginsky (2017) 的信息论框架内广泛适用。与其他依赖于梯度平方范数的边界相比，我们的边界项的数量级要小得多，同时可以与经验风险面的平坦度指标相关联。

Nov, 2019

通过算法相关的 Rademacher 复杂度实现泛化保证

算法和数据相关的广义化界限是解释现代机器学习算法的广义化行为所必需的。在这个背景下，存在包括 (各种形式的) 互信息和基于假设集稳定性的信息论广义化界限。我们提出了一个概念上相关但技术上独特的复杂度度量方法来控制广义化误差，这就是算法和数据相关的假设类的经验 Rademacher 复杂度。通过结合 Rademacher 复杂度的标准特性和这个类的方便结构，我们能够 (i) 获得基于有限分形维度的新界限，这些界限将之前从连续假设类推广到有限假设类，并避免了先前工作中所需的互信息项；(ii) 大大简化了最近一个和维度无关的随机梯度下降的广义化界限的证明；(iii) 我们轻松恢复了 VC 类和压缩方案的结果，类似于基于条件互信息的方法。

Jul, 2023

基于稳定中位数的自适应估计器泛化

本文主要介绍了一种基于近似中位数算法的算法来估算统计数据集的普适性，该算法满足差分隐私的强稳定性保证，解决了统计数据集在自适应问题上的泛化保证的新方法。

Jun, 2017

基于 Copula 的核依赖度量

本文提出了一种基于 copula 的新型随机变量依赖度测量方法，延伸了 MMH 方法至联合分布的 copula，该方法类似于 Shannon 互信息，能够不受边缘变量任何严格增加变换的影响，重要的是在很多应用中，例如特征选择。本文通过一系列实验说明了理论贡献的作用在于特征选择和低维分布嵌入中。同时，该方法的估计是始终如一的，对离群值具有鲁棒性，并仅使用排名统计数据。该方法提出了收敛速率和独立性检验的上界。

Jun, 2012

基于矩阵熵函数的依赖度测量

本文总结并将现有的信息论依赖度量的主要思想推广到更高层次的透视图，并基于此提出了两种测量依赖性的新方法，分别是基于矩阵的归一化总相关量和基于矩阵的归一化双重总相关量，用于量化多变量在任意维度空间中的交互依赖关系，同时探究其在基因调控网络推理、机器学习、异常值检测以及卷积神经网络学习动态等四个问题中的应用，以此展示其实用性、优点和意义。

Jan, 2021

一类相关随机测度的统一表示

该研究依据拓展空间中的稀疏泊松过程，提出了依赖随机测度的一般建模方法，并应用到完全随机测度模型。该框架可应用于多种模型中，且构建的具有协变性的潜在特征模型和主题模型表现出更好的预测性能。

Nov, 2012