针对网络入侵检测数据集特征调整的集成分类器设计

May, 2022

针对网络入侵检测数据集特征调整的集成分类器设计

Ensemble Classifier Design Tuned to Dataset Characteristics for Network Intrusion Detection

Zeinab Zoghi, Gursel Serpen

TL;DR本文针对 UNSW-NB15 数据集的类不平衡和特征空间中的类重叠问题，提出了一种机器学习分类器的数据驱动设计和性能评估方法，其中使用 Balanced Bagging、eXtreme Gradient Boosting、Hellinger Distance Decision Tree 等集成方法来解决不平衡数据问题，提出了两种新的算法来解决类重叠问题，并提高了测试数据的分类性能。实验证明，相比已有技术，该方法在二元和多种情况下均有显著优势。

Abstract

machine learning-based supervised approaches require highly customized and fine-tuned methodologies to deliver outstanding performance. This paper presents a dataset-driven design and performance evaluation of a machine learning classifier for the →

machine learning network intrusion ensemble methods imbalanced data class overlap

发现论文，激发创造

基于机器学习的网络入侵检测在大规模和不平衡数据上的应用：过采样、堆叠特征嵌入和特征提取

我们介绍了一种基于机器学习的网络入侵检测模型，使用随机过采样处理数据不平衡并基于聚类结果进行堆叠特征嵌入，以及使用主成分分析进行维度约简，特别适用于大规模和不平衡的数据集，并在三个现阶段的基准数据集：UNSW-NB15、CIC-IDS-2017 和 CIC-IDS-2018 上进行了评估，结果表明该模型的性能持续优于现有技术，证明了该方法在网络入侵检测领域的重要进展和有效性。

Jan, 2024

基于集成的贝叶斯神经网络和传统机器学习算法的混合优化

通过将贝叶斯神经网络与传统机器学习算法（如随机森林、梯度提升、支持向量机）协同集成的一种新方法，强调了特征集成在优化中的重要性，包括优化的二阶条件，如哈西矩阵的定态性和正定性。与此相反，超参数调整对于改善预期改进（EI (x)）的影响有所削弱。总体而言，集成方法作为一种稳健的、算法优化的方法表现出色。

Oct, 2023

基于特征选择和集成分类器构建高效入侵检测系统

本文提出了一种新的基于特征选择和集成学习技术的入侵检测框架，使用 NSL-KDD、AWID 和 CIC-IDS2017 数据集进行实验证明，CFS-BA-Ensemble 方法在多个指标下具有更优越的性能。

Apr, 2019

恶意软件检测中机器学习对 Mal-API-2019 数据集的综合评估

本研究使用机器学习技术对恶意软件检测进行了全面研究，重点评估了在 Mal-API-2019 数据集上使用各种分类模型的效果，旨在通过更有效地识别和减轻威胁来提升网络安全能力。研究探讨了集成和非集成的机器学习方法，例如随机森林、XGBoost、K 最近邻（KNN）和神经网络。特别强调了数据预处理技术的重要性，尤其是 TF-IDF 表示和主成分分析，在提高模型性能方面起到了积极作用。结果表明，集成方法，特别是随机森林和 XGBoost，相比其他方法表现出更高的准确性、精确度和召回率，凸显了它们在恶意软件检测中的有效性。该论文还讨论了限制和未来的潜在方向，强调了持续适应恶意软件演变性质的需求。这项研究为网络安全领域的持续讨论做出了贡献，并为在数字时代开发更强大的恶意软件检测系统提供了实用洞察。

Mar, 2024

基于遗传规划的混合集成优化算法用于不平衡数据分类

本研究提出了一个基于遗传编程的混合集成算法，以提高训练数据集（尤其是少数类）的采样效率，并确定比现有方法更好的基本分类器来组合分类器，实验结果表明，在 40％和 50％的训练集规模下，所提出的方法在少数分类预测的特定数据集上表现更佳。

Jun, 2021

基于小波的混合机器学习模型用于未知来源的互联网流量预测

本文探讨和评估了使用多种机器学习算法对于相同分布和非同分布数据的表现，同时提出了一种混合机器学习模型，结合小波分解以提高泛化性能，实验结果显示，相比于独立模型，我们的混合模型在处理非同分布数据时表现更优。

May, 2022

流行集成方法：一项实证研究

本研究使用神经网络和决策树作为分类算法，在 23 个数据集上评估了 Bagging 和 Boosting 两种集成方法。研究结果表明 Bagging 方法几乎总是比单个分类器更准确，而 Boosting 方法则在某些情况下比 Bagging 更不准确。数据集的特征对 Boosting 方法的表现有重要影响，这种方法可能会过拟合噪声数据集，从而减少性能。同时我们的结果也说明，集成模型的性能提升大部分发生在前几个分类器的组合中。

Jun, 2011

基于集成分类器的工业物联网鲁棒性攻击检测方法

本文旨在开发一种两阶段的异常检测模型，通过集成机器学习技术 - 支持向量机和朴素贝叶斯，使用集成混合技术进行预测，以及神经网络分类器和随机森林算法进行结果分类，提高工业物联网网络的可靠性。测试结果表明，该模型的准确性最高可达 99％，且优于传统的技术。

Jan, 2021

企业网络入侵检测的对抗鲁棒性评估

提出了一种方法论性对多个决策树集成模型进行对抗鲁棒性评估的基准测试，评估了正常和对抗训练的随机森林 (RF)、梯度提升树 (XGB)、轻梯度提升树 (LGBM) 和增强型决策树 (EBM) 模型对网络流量的检测性能，通过减少误报来提高对可疑活动的可靠检测能力。

Feb, 2024

基于网格搜索方法的优化 Hist Gradient Boosting 分类器的恶意 URL 检测

为了检测恶意网站的风险，我们提出利用基于机器学习的技术，通过对数据输入、恶意网站、机器学习技术和网站检测等关键词进行分析，并优化算法，最终通过多种指标对模型进行评估，实验结果表明 Hist Gradient Boosting Classifier (HGBC) 在各项指标上表现最好。

Jun, 2024