- 基于模糊知识和复杂数据互补的弱监督因果推断
KEEL 是一种弱监督的模糊知识和数据驱动的因果发现方法,能够提高在高维度和小样本场景中因果关系发现的泛化能力和鲁棒性。
- 评估深度学习潜在特征空间的稳定性
高维数据集在各个学科的统计建模中带来了很大的挑战,需要高效的降维方法。深度学习方法通过降维的潜在特征空间从复杂数据中提取关键特征,有着广泛的应用,从生物信息学到地球科学等领域。本研究通过引入一个新的工作流程来评估这些潜在空间的稳定性,确保后 - MEL:高维特征选择的高效多任务进化学习
该研究提出了一种名为 PSO-based Multi-task Evolutionary Learning(MEL)的新方法,通过利用多任务学习来提升特征选择的学习能力和效率,并在 22 个高维数据集上进行了广泛实验,与其他 24 种进化计 - 森林火灾检测中支持向量机(SVM)在具有挑战性数据集上的性能分析
这篇文章主要研究了使用支持向量机(SVM)对基于图像数据集的森林火灾检测进行性能和利用率分析。通过对带标签数据进行训练,SVM 能够识别与火灾相关的特征,如火焰、烟雾或森林区域的视觉特征变化。文章深入探讨了 SVM 的使用,包括数据预处理、 - 从双变量投影重构高维数据集
通过图形化解决方案重新构建高维数据集,包括查找团伙和讨论复杂情况,再加以其他方法处理,研究结果表明这些方法在很多情况下能够成功重建原始数据集。
- 非冗余聚类的自动参数选择
该论文提出了一个利用最小描述长度原则(MDL)自动检测子空间数量和每个子空间中的簇数的框架,并描述了一种有效的过程,通过在子空间内进行分裂和合并子空间和簇来贪婪搜索参数空间。此外,介绍了一种编码策略,可在每个子空间中检测异常值。广泛的实验表 - PECANN:基于图的近似最近邻搜索的并行高效聚类
该研究论文通过抽象密度峰聚类算法中的关键步骤,如使用基于图的近似最近邻搜索(ANNS)方法来寻找满足预测函数的最近邻,提出了一种统一的框架 PECANN。通过在合成和真实数据集上评估,该方法在大规模高维度数据集上实现了高速的聚类效果,并在性 - 多视角稀疏拉普拉斯特征图在非线性光谱特征选择中的应用
多视图稀疏拉普拉斯特征映射是一个基于图的方法,通过多次观察数据以构建更强健和信息丰富的高维数据表示,通过稀疏特征分解和优化算法来降低数据维度并获得一个特征集。作者在 UCI-HAR 数据集上进行实验证明即使将特征空间减少 90%,支持向量机 - 特征选择:关于属性间合作的视角
研究高维数据集中的特征选择方法及其发展,包括单变量相关性排名算法、关联 - 冗余折衷和基于多变量依赖性的方法,并总结文献中各种方法的贡献,同时介绍当前的问题和挑战,以确定未来的研究和发展方向。
- 矩匹配去噪 Gibbs 抽样
在能量模型(EBMs)中,我们提出了一种有效的采样框架:带有矩匹配的(伪)Gibbs 采样,以便从经过 Denoising Score Matching (DSM)训练的 “嘈杂” 模型中有效采样。与相关方法相比,探讨了我们方法的优点,并展 - 通过鲁棒的 UNet 降噪器进行证明的零阶黑盒防御
本篇文章提出了一种证明 ZO 预处理技术,使用仅基于模型查询的黑盒模型,通过提前将 RDUNet 附加到黑盒模型中来确保黑盒模型对高维数据集进行训练时的鲁棒性,进而提出了 DS 和 AE-RUDS 两种新的黑盒防御机制,并在四个分类数据集上 - SFE:一种简单、快速、有效的高维数据特征选择算法
本文提出了一种名为 SFE 的新的高维数据集特征选择算法,包括探索和开发两个阶段,在其中使用两个操作符进行搜索,有选择性和无选择性,成功地从高维数据集中选择特征。
- 高维分类问题的集成特征选择和规则提取的自适应神经模糊系统
提出了一种可处理维度高达 7000 以上的神经模糊系统 AdaTSK,其中引入了一种自适应 softmin 算法,以有效地克服现有模糊系统在处理高维问题时出现的问题,并可在集成的 FSRE-AdaTSK 系统中进行特征选择和规则提取。
- 通过无穷小分类进行密度比率估计
该论文提出了一种基于 DRE-∞的、通过蒙特卡罗方法的数值计算技术,从而能够更准确地估算高维度数据中的概率分布之间的密度比率,并为复杂的高维数据集上的任务(如相互信息估计和能量建模)提供了更好的性能。
- 关于 UMAP 真实损失函数的研究
本研究针对 UMAP 在高维数据可视化方面超越 t-SNE 等方法的原因进行了详细调查,并推导出了 UMAP 的有效损失函数,发现它不同于已发表的损失函数。我们认为 UMAP 的成功关键在于其负采样实现的引力和斥力的平衡,并通过梯度下降法进 - 通过扩散恢复似然学习能量相关模型
本文提出了一种基于扩散概率模型的能量模型训练和采样方法,其将数据集分成一系列噪声水平并在其上训练每个 EBM,优化回收概率而非边缘概率的方式为此提供了一个简便的方法,并在多个图像数据集及 CIFAR-10 上实现了高保真采样。
- Mapper Interactive:高维数据可视化的可扩展交互式工具箱
本文介绍了基于 Web 框架的交互式分析和可视化高维点云数据的 Mapper Interactive 算法,该方法实现了映射算法的交互式、可扩展和可扩展性,支持实践数据分析和加速拓扑分析工作流程。
- AAAISUOD: 面向可扩展的无监督异常检测
提出一种名为 SUOD 的加速框架,该框架由三个模块组成:随机投影模块、平衡并行调度模块和伪监督逼近模块,旨在缩短训练和预测无监督检测模型的时间。实验证明,SUOD 在处理高维大型数据集时表现出良好的效果。
- 流式数据的近似核密度估计子线性 RACE 草图
提出 RACE 算法以取代高维数据的核密度估计,通过将一组高维向量压缩成一组整数计数器的小数组来实现。该方法可应用于实际的高维度数据集,相比其他方法具有 10 倍的压缩性能。
- 深度连续聚类
通过深度自编码器实现非线性降维和聚类,优化作为聚类过程的自编码器,避免之前聚类算法中离散目标的缺陷,无需先验知识即可进行聚类,实验证明该算法优于状态的聚类方案并具有普适性。