距离排名得分:针对不平衡数据集的无监督特征选择过滤方法
该论文提出了一种基于无监督学习的特征选择方法,将最大间隔准则和基于稀疏性的模型整合到一个联合框架中,将类间间距和特征相关性同时考虑,通过将 Kmeans 嵌入框架中来生成伪类标签,从提取特征系数矩阵的稀疏结构来有效去除噪声和无关特征,并提出了一种收敛保证的算法以迭代地寻找最优解,对六个基准数据集进行了广泛的性能评估,实验结果表明,该方法的性能优于所有其他对比方法。
Jun, 2015
通过选择最具信息量的特征并消除无关的特征,我们提出了一种新的基于差异性特征的滤波特征选择方法 ContrastFS,该方法能够在大型数据集上有效地降低计算成本,而且性能优于其他最先进的特征选择方法。
Jan, 2024
本文提出了一种基于博弈理论、计算特征重要性的方法,用于无监督特征选择并消除冗余,结果表明该方法在降低冗余率的同时最大化数据信息。同时,本文还介绍了一种计算 Shapley 值的算法的近似版本,使其能够降低复杂度。
May, 2022
聚类算法在数据分析中被广泛使用,本文研究了加入无关特征对聚类结果的影响,并发现 Silhouette 系数和 Davies-Bouldin 分数对无关特征最为敏感,因此可用于无监督聚类任务中的特征选择。
Feb, 2024
特征选择是处理高维数据时的关键步骤,本文提出了一种基于 Jensen Shannon 散度的信息论方法来衡量算法的稳定性,该方法能够适用于不同的算法输出结果,并具备校正变化、上下界和确定性选择条件等优良特性。通过在控制条件下生成的数据和与其他流行度量标准的比较,验证了该稳定性度量标准的实用性和优势。在实际问题中,该方法对于食物质量评估具有潜在的稳定性评估能力。
Feb, 2024
本文介绍了一种基于图形的无监督特征选择技术,该技术利用拓扑受限网络表示的威力,使用和弦图来建模特征之间的依赖结构,通过研究它们在网络内的相对位置来最大化特征相关性的可能性,并在不同应用领域的 16 个基准数据集上测试我们的算法,结果表明我们的算法在异构评估条件下优于或与最新技术水平相匹配。该方法在可调性,可解释性和计算成本方面展现出较高的优越性。
Feb, 2023
高维度不平衡数据中,无监督特征选择方法对于后续算法的成功至关重要。为此,我们提出了一种更适用于不平衡数据的边缘拉普拉斯得分(Marginal Laplacian Score,MLS)算法,并将其集成到现代特征选择方法中,形成 DUFS-MLS。该方法在合成数据和公共数据集上展示了鲁棒性和改进性能。
Nov, 2023
本文提出了一种高效的算法,以一种高效、紧凑的方式从候选项中发现输入特征或分类器的稀疏表示,用于大规模识别,并在训练速度和性能方面显着优于传统方法和强大的分类器,特别是在有限的训练数据的情况下。
Nov, 2014
OutRank 是一个用于多功能特征排序和数据质量相关异常检测的系统,可在推荐系统中探索比 AutoML 系统大多达 300% 的特征空间,加快在现成硬件上搜索更好模型。
Sep, 2023