用于处理异常值和重尾分布的两级直方图
本文研究了在非参数密度估计中如何引入多视角潜变量模型,探讨了具有唯一一定的连续 Lipschitz 分量的多视角模型的普适一致直方图估计量存在,提出了基于 Tucker 分解的新的非参数潜变量模型,并在实验中发现相对于标准的直方图估计量,本文提出的估计量表现出了明显的性能提高,为将低秩技术扩展到非参数设置提供了坚实的理论基础。
Apr, 2022
这篇论文是一篇对最小描述长度(MDL)原理的介绍和概述,讨论了在统计学、机器学习和模式识别等领域中广泛应用的归纳推理理论。MDL 可以被视为惩罚最大似然和贝叶斯方法的一种强大扩展,其中惩罚函数和先验分布被替换成更一般的幸运函数。
Aug, 2019
本研究考虑了独立采样数据的公共平均值估计问题,提出了一种估计器,它能够适应数据异质性的水平,在 i.i.d. 和某些非同质的设置下均达到近似最优,其估计器既考虑了传统统计学中的模态区间、shorth、中位数估计器,又利用了新型经验过程理论结果,在多元估计和回归的情况下,我们提出了可在多项式时间内运行的估计器版本。
Jul, 2019
本文提出了一种高效的基于变宽直方图的密度估计算法,通过使用该算法对来自 $p$ 的独立同分布采样,可以输出一个分段常数概率密度函数作为假设分布,并且在样本规模和运行时间上达到最优,其中总变差距离满足一定的误差限制。
Nov, 2014
提出了一种基于特征函数的线性特征模型(LCM),利用稳定分布计算在图形模型中存在的重尾分布下的精确和近似推理,该模型不局限于稳定分布,并可适用于离散、连续或混合随机变量。
Aug, 2010
本文介绍一种称为 “partial logarithmic binning” 的方法,该方法能够检测信息科学中许多分布所呈现的特征。文章指出,用次方方法处理数据可以让我们观察到无噪音情况下的实际呈现形式。除了通常采用的 MLE 方法,简单最小二乘的处理方法有时更为适用。本文还讨论了累积分布函数难以准确获得干净的特征,因而使得获得指数的精确值变得困难的问题。本文非技术性,适合没有数学背景的信息科学研究者。
Nov, 2010
本研究采用最大似然拟合、基于 Kolmogorov-Smirnov 拟合度量的假设检验和可能性比检验等方法,针对实际的具有重尾性状的 12 个不同数据集进行分析,以评估用于有所不同的描述方式下的第三方统计学中有关幂律分布的假设检验的效果,并量化了数据划分所导致的统计功率损失。
Aug, 2012