最近邻异常检测方法的统计分析

Jul, 2019

Statistical Analysis of Nearest Neighbor Methods for Anomaly Detection

Xiaoyi Gu, Leman Akoglu, Alessandro Rinaldo

TL;DR探究最近邻方法在异常检测中的表现，通过综合模拟实验和理论分析得到最近邻方法相对于其他现有算法的优异性，并针对不同维度数据和异常观测提供有限样本一致性保证和分类误差率公式。

Abstract

nearest-neighbor (NN) procedures are well studied and widely used in both supervised and unsupervised learning problems. In this paper we are concerned with investigating the performance of NN-based methods for anomaly

nearest-neighbor anomaly detection dtm misclassification rates huber's contamination model

发现论文，激发创造

深度最近邻异常检测

该研究探讨在使用 Imagenet 预训练特征空间的情况下，最近的自我监督深度方法是否确实优于最近邻方法进行异常检测。通过实验证明，仅使用简单的最近邻方法在准确度，few shot 泛化，训练时间和噪声稳健性方面均优于自我监督方法，同时在图像分布方面做出较少的假设。

Feb, 2020

k-NNN: 通过邻居的邻居来进行异常检测的最近邻居算法

通过考虑最近邻居和邻居的邻居（k-NNN）提出一种新的算子来提高异常检测算法的性能，在常见的同质数据集（例如具有特定类型的花卉或坚果）和更多样化的数据集上均得到了改进。

May, 2023

实际数据上的无监督异常检测算法：我们需要多少个？

本研究在 52 个实际多元表格数据集上评估 32 种无监督异常检测算法，在收集的数据集中，K-thNN 算法在大多数情况下表现最佳，也确定了两个清晰的簇，一个有 “局部” 数据集，另一个有 “全局” 数据集，考虑到算法的计算复杂性，这三种算法足以找到代表性的多元数据集中的异常。

May, 2023

局部异常点检测的基于邻居的方法比较研究

对离群点检测中的邻居方法及其组成部分进行了研究，引入了一个分类法，使用信息、邻居和方法学作为三个层面来定义混合方法，通过合并该分类法的不同组成部分，可以提出新的基于邻居的离群点检测方法，实验结果表明，基于逆 K 最近邻方法在高维空间中具有良好性能。

May, 2024

基于最近邻图的得分函数异常检测

提出了一种新的非参数自适应异常检测算法，它基于从 $n$ 点名义数据最近邻图推导出的得分函数。该算法适用于高维数据集，可以在不需要选择复杂的调整参数或函数逼近类别的前提下自适应地适应局部结构，如维度局部变换。

Oct, 2009

最近邻技术调查

该研究论文讨论了最近邻（NN）技术在模式识别、文本分类、目标识别等领域的应用。文中介绍了结构无关和结构相关技术，如加权 kNN，基于模型的 kNN 等结构无关技术以及 k-d 树，球树，主轴树，最近特征线，可调 NN 等结构相关算法，并提出了结构无关方法可以克服内存限制，而结构相关技术可以减少计算复杂度。

Jul, 2010

深度 k 近邻：朝着自信、可解释和鲁棒的深度学习发展

本研究针对深度学习在对抗性环境下的鲁棒性和预测不可解释性等问题，通过将 k-NN 算法与深度学习结合，提出了一种名为 DkNN 的混合分类器，它可以为输入数据提供信心估计和人类可解释的预测解释。实验证明，DkNN 算法可以准确识别模型外部的输入，同时提供直观和有用的模型失败解释。

Mar, 2018

无监督距离度量学习用于多变量时间序列的异常检测

本研究提出了 FCM-wDTW，一种用于多变量时间序列异常检测的无监督距离度量学习方法，通过将原始数据编码成潜在空间，并通过聚类中心揭示正常维度关系，引入局部加权 DTW 到模糊 C 均值聚类，并有效地学习最优潜在空间，通过数据重构实现异常识别。通过对 11 种不同类型的基准测试的实验表明，我们的方法具有竞争力的准确性和效率。

Mar, 2024

DNNR: 差分最邻近回归

本研究提出一种名为 Differential Nearest Neighbors Regression (DNNR) 的新方法，通过在训练期间估计局部梯度并在推断期间使用估计的梯度执行 n 阶泰勒逼近。在超过 250 个数据集的大规模评估中，我们发现，DNNR 在保持 KNN 的简单性和透明度的同时，表现与最先进的梯度提升方法和 MLP 相当，允许我们导出理论误差界并检查失败，从而在需要 ML 模型透明度的时代提供了绩效和可解释性之间的良好平衡。

May, 2022

高维数据的近似最近邻搜索：实验、分析与改进（v1.0）

本文详细评估了 16 种不同算法在 20 个不同数据集、多个评估指标和不同查询工作负载下的性能表现，并提出了一种新的方法以提高查询效率和召回率。

Oct, 2016