Aug, 2019

高维数据的异常检测

TL;DR本文提出了一种名为 stray 的算法,使用基于极值理论的方法计算异常值阈值,针对 HDoutliers 算法的局限性进行改进,可以在准确性和计算时间上优于 HDoutliers 算法,对于数据结构中存在的异常值,使用特征工程进行检测,已在开源 R 包 stray 中实现。