TL;DR本研究提出了一种新的检测离群值的高效算法,用于聚类混合的高斯模型,这种方法是鲁棒的,可以处理在数据中有少部分的失真或错误,它依赖于 TV 距离和方差有限度等假定条件,并使用极小化两种偏差的方法来修复度量误差和离群值异常。
Abstract
We give the first outlier-robust efficient algorithm for clustering a mixture
of $k$ statistically separated d-dimensional Gaussians (k-GMMs). Concretely,
our algorithm takes input an $\epsilon$-corrupted sample