提高离群值检测的效率生成隐藏离群值

Feb, 2024

提高离群值检测的效率生成隐藏离群值

Efficient Generation of Hidden Outliers for Improved Outlier Detection

Jose Cribeiro-Ramallo, Vadim Arzamasov, Klemens Böhm

TL;DR提出了一种新的异常点生成方法 BISECT，在高维空间中模拟多角度的真实异常点，并将其用于改善多种数据集的异常点检测，如过采样减少错误率。

Abstract

outlier generation is a popular technique used for solving important outlier detection tasks. Generating outliers with realistic behavior is challenging. Popular existing methods tend to disregard the 'multiple views

outlier generation outlier detection multiple views bisect oversampling

发现论文，激发创造

基于零样本离群生成和分层特征提取的异常检测

本文提出了一种可以通过生成异常样本来解决少数异常样本数据不均衡的方法，利用自编码器和变分自编码器的双层分层潜空间表示来将合法数据的特征描述符深度提取为更强的表示，再利用这些生成器合成未见过的负样本，训练二元分类器以获得鲁棒的且无需实际异常样本训练的异常检测性能，该方法在多个异常检测基准测试中表现优异。

Oct, 2020

异常值存在下的实用贝叶斯优化

该论文针对含有离群点的贝叶斯优化问题，提出一种结合鲁棒回归与离群点诊断的算法，分类数据点，提高了效率和收敛率，并在实验中验证了该算法的有效性。

Dec, 2017

分布式聚类与异常检测的实用算法

本文提出了一种基于简要构建的数据摘要的分布式无监督学习算法，对异常点的全局识别有很好的近似保证，并在真实和人工数据上超过了所有基线算法。

May, 2018

面向预算的异常检测表示学习

本文提出了一种名为 BORE 的方法，将非监督得分函数用于监督学习框架中的特征，以解决在大数据集中检测少量异常值的问题，并在 12 个真实世界数据集上展示了其优越性。

Jul, 2015

算法高维鲁棒统计的最新进展

本文章讨论了高维数据的鲁棒性估计问题以及最近在该领域中提出的算法技术，尤其关注于鲁棒均值估计。

Nov, 2019

通过迭代滤波进行异常值鲁棒的高维稀疏估计

研究高维稀疏估计任务中的鲁棒性问题，提出使用基于谱技术的迭代式方法消除数据中的离群值，实现高效稳健的稀疏均值估计和稀疏主成分分析。

Nov, 2019

生成敌对性主动学习用于无监督异常检测

本文提出了一个基于单目标生成对抗主动学习（SO-GAAL）方法的新型离群点检测算法，通过多个生成器（MO-GAAL）解决数据稀疏性和模式崩溃等问题，在合成和真实数据集上的实验结果表明，MO-GAAL 在各种情况下表现良好。

Sep, 2018

高维数据的异常检测

本文提出了一种名为 stray 的算法，使用基于极值理论的方法计算异常值阈值，针对 HDoutliers 算法的局限性进行改进，可以在准确性和计算时间上优于 HDoutliers 算法，对于数据结构中存在的异常值，使用特征工程进行检测，已在开源 R 包 stray 中实现。

Aug, 2019

通过广义贝叶斯实现鲁棒卡尔曼滤波

在存在异常值和误设测量模型的状态空间模型的在线滤波中，我们导出了一种新颖、可靠证明的闭合贝叶斯更新规则。我们的方法将广义贝叶斯推理与滤波方法（如扩展和集成卡尔曼滤波器）相结合，其中前者用于展示鲁棒性，后者用于确保非线性模型的计算效率。在异常值测量的一系列滤波问题（如物体跟踪、高维混沌系统的状态估计和在线神经网络学习）中，我们在更低的计算成本下与其他鲁棒滤波方法（如基于变分贝叶斯的方法）相匹配或表现更好。

May, 2024

基于后验子集中位数的鲁棒可伸缩贝叶斯

提出了一种新的贝叶斯分析方法，其在数据中有很强的鲁棒性，通常比传统方法具有更好的计算性能。该方法将数据分成非重叠的子组，评估每个独立子组得到的后验分布，然后组合结果。该方法的主要创新点是提出了一个基于概率度量空间中中位数的聚合步骤，提出了一种适合于快速高效评估的距离集合。我们提供了理论和数值测试结果，展示了我们的方法所取得的改进。

Mar, 2014