用于处理异常值和重尾分布的两级直方图

Jun, 2023

用于处理异常值和重尾分布的两级直方图

Two-level histograms for dealing with outliers and heavy tail distributions

Marc Boullé

TL;DR本文主要介绍了基于 MDL 原则的 G-Enum 直方图方法，不需用户参数即可构建直方图。对于特殊情况，提出了适用于离群值或重尾分布等两种不同情况的两级启发式方法。经过大量实验证明了该方法的优势。

Abstract

histograms are among the most popular methods used in exploratory analysis to summarize univariate distributions. In particular, irregular histograms are good non-parametric →

histograms density estimators minimum description length irregular histograms outliers

发现论文，激发创造

超越平滑性：将低秩分析并入非参数密度估计

本文研究了在非参数密度估计中如何引入多视角潜变量模型，探讨了具有唯一一定的连续 Lipschitz 分量的多视角模型的普适一致直方图估计量存在，提出了基于 Tucker 分解的新的非参数潜变量模型，并在实验中发现相对于标准的直方图估计量，本文提出的估计量表现出了明显的性能提高，为将低秩技术扩展到非参数设置提供了坚实的理论基础。

Apr, 2022

本地、私有、高效的简明直方图协议

本研究给出了关于差分隐私的本地模型下的频率估计的有效协议和匹配准确性下限，研究了能产生数据简明直方图表征的协议，以及在公共硬币模型下的协议。

Apr, 2015

重尾分布下的均值估计与回归 —— 综述

介绍子高斯均值估计器、中位数估计技术及其在可能存在重尾数据的单变量和多元设置中的应用，同时探讨拟重尾数据情况下的回归函数估计问题。

Jun, 2019

最小描述长度的再探讨

这篇论文是一篇对最小描述长度（MDL）原理的介绍和概述，讨论了在统计学、机器学习和模式识别等领域中广泛应用的归纳推理理论。MDL 可以被视为惩罚最大似然和贝叶斯方法的一种强大扩展，其中惩罚函数和先验分布被替换成更一般的幸运函数。

Aug, 2019

高维数据的非参数密度估计 - 算法与应用

本文介紹了一些新的高維度非參數密度估計算法，探討其在無監督學習中的應用，特別是聚類問題，並且提出了一些和高維數據分析相關的研究方向。

Mar, 2019

估计纠缠单样本分布中的位置参数

本研究考虑了独立采样数据的公共平均值估计问题，提出了一种估计器，它能够适应数据异质性的水平，在 i.i.d. 和某些非同质的设置下均达到近似最优，其估计器既考虑了传统统计学中的模态区间、shorth、中位数估计器，又利用了新型经验过程理论结果，在多元估计和回归的情况下，我们提出了可在多项式时间内运行的估计器版本。

Jul, 2019

利用可变宽度直方图实现近线性时间的近似最优密度估计

本文提出了一种高效的基于变宽直方图的密度估计算法，通过使用该算法对来自 $p$ 的独立同分布采样，可以输出一个分段常数概率密度函数作为假设分布，并且在样本规模和运行时间上达到最优，其中总变差距离满足一定的误差限制。

Nov, 2014

线性模型中的多变量重尾推断

提出了一种基于特征函数的线性特征模型（LCM），利用稳定分布计算在图形模型中存在的重尾分布下的精确和近似推理，该模型不局限于稳定分布，并可适用于离散、连续或混合随机变量。

Aug, 2010

信息科学中的幂律分布 - 为对数分组法辩护

本文介绍一种称为 “partial logarithmic binning” 的方法，该方法能够检测信息科学中许多分布所呈现的特征。文章指出，用次方方法处理数据可以让我们观察到无噪音情况下的实际呈现形式。除了通常采用的 MLE 方法，简单最小二乘的处理方法有时更为适用。本文还讨论了累积分布函数难以准确获得干净的特征，因而使得获得指数的精确值变得困难的问题。本文非技术性，适合没有数学背景的信息科学研究者。

Nov, 2010

离散经验数据中的幂律分布

本研究采用最大似然拟合、基于 Kolmogorov-Smirnov 拟合度量的假设检验和可能性比检验等方法，针对实际的具有重尾性状的 12 个不同数据集进行分析，以评估用于有所不同的描述方式下的第三方统计学中有关幂律分布的假设检验的效果，并量化了数据划分所导致的统计功率损失。

Aug, 2012