面向预算的异常检测表示学习

Jul, 2015

Learning Representations for Outlier Detection on a Budget

Barbora Micenková, Brian McWilliams, Ira Assent

TL;DR本文提出了一种名为 BORE 的方法，将非监督得分函数用于监督学习框架中的特征，以解决在大数据集中检测少量异常值的问题，并在 12 个真实世界数据集上展示了其优越性。

Abstract

The problem of detecting a small number of outliers in a large dataset is an important task in many fields from fraud detection to high-energy physics. Two approaches have emerged to tackle this problem: unsupervised and supervised. Supervised approaches require a sufficient amount of labeled data and are challenged by novel types of outliers and inherent cl

outlier detection unsupervised learning supervised learning performance evaluation bagging

发现论文，激发创造

XGBOD: 利用无监督表示学习提高监督异常检测

提出了一种新的半监督集成算法 XGBOD，它结合了监督和无监督机器学习方法的优势，利用多个无监督异常值挖掘算法从底层数据中提取有用的表示形式，并在增强的特征空间上使用嵌入式监督分类器的预测能力，在七个异常值数据集中展现出优于竞争个体检测器、完整集成和两种现有表示学习算法的性能。

Dec, 2019

无需包外采样的异常检测

本文提出了一种基于模型的异常检测方法，Out-of-Bag 异常检测，它可以处理由数字和分类特征组成的多维数据集，将无监督学习问题分解成集合模型的训练。通过对基准数据集的全面实验展示了该方法的最新性能，并通过房屋估值的案例研究展示了其可以作为数据预处理步骤，提高 ML 系统的准确性和可靠性。

Sep, 2020

我们是否需要从领域内数据中学习表示以进行异常检测？

本文探讨了使用单个预训练网络作为通用特征提取器，在异常检测任务中取代训练不同表示器的可能性，并在实验中证明了使用领域内数据学习表示可能不是异常检测的必要步骤。

May, 2021

无监督表示学习的一致性聚类

本研究探讨并观察到使用 BYOL 学习得到的特征对于聚类可能不是最佳的，提出了一种新颖的基于一致性聚类的损失函数，通过提出的方法进行训练可以提高聚类能力，并在一些流行的计算机视觉数据集上优于相似的聚类方法。

Oct, 2020

监督异常传递学习中的严格率

稀缺的异常数据是学习准确的异常检测决策规则的一个关键障碍。虽然迁移学习方法在异常检测中取得了最近的经验成功，但关于从源异常检测任务向目标任务中传递知识的条件和方式的基本理解仍不清楚。本研究采用 Neyman-Pearson 分类的传统框架，假设可以访问一些相关的但不完美的异常数据，并给出了关于该问题的信息理论限制，在这些限制下，我们验证了自适应程序在原则上可以实现，即无需关于源和目标异常分布差异的先验信息。

Oct, 2023

自监督表示学习中的特征解耦以实现开集识别

本文提出了一种自监督特征解耦方法，用于开放集识别任务，通过利用聚类算法来同步解决训练数据不足和未知类别问题。实验结果表明，自监督方法在图像识别和恶意软件检测的任务中能够优于其他方法，同时提出的内外比率指标与开放集识别的性能相关。

Sep, 2022

MBORE: 多目标贝叶斯优化与密度比估计

这篇论文针对多目标优化问题，提出了一种名为 MBORE 的方法，它将 BORE 扩展到了多目标问题，并在一系列合成和真实世界基准测试中与 BO 进行了比较。结果表明，在许多问题上，MBORE 的表现要好于或优于 BO，在高维度和真实世界问题上优势更为明显。

Mar, 2022

学习用于随机基于距离的异常检测的超高维数据表示

RAMODO 是一个基于排名模型的框架，旨在通过 REPEN 方法来解决编码表示和异常检测之间的不一致性问题，充分利用少量的标注数据来提高表征学习的性能和稳定性。

Jun, 2018

针对网络入侵检测数据集特征调整的集成分类器设计

本文针对 UNSW-NB15 数据集的类不平衡和特征空间中的类重叠问题，提出了一种机器学习分类器的数据驱动设计和性能评估方法，其中使用 Balanced Bagging、eXtreme Gradient Boosting、Hellinger Distance Decision Tree 等集成方法来解决不平衡数据问题，提出了两种新的算法来解决类重叠问题，并提高了测试数据的分类性能。实验证明，相比已有技术，该方法在二元和多种情况下均有显著优势。

May, 2022

嵌入特征选择的离群点检测集成

提出了一种嵌入特征选择的异常检测集成框架 (ODEFS)，通过成对排名使特征选择和异常检测融合，使用阈值自适应学习同时优化特征选择和样例选择，设计了一个交替算法解决优化问题，分析了该框架的泛化误差界限，实验结果表明 ODEFS 的优越性。

Jan, 2020