比例特征空间中的归一化
通过深度典型相关分析(DCCA)找出可以最真实地从一种数据视角推导出的特征,进而构建出一非参数隐含联合概率分布的经典版本,以求解贝叶斯估算和标准偏差,并测试其在OCCLUD MNIST图像推理和监督学习中的可行性和效率,同时探索了发现单个数据集中显著的独立变量的可能性。
Apr, 2019
本文研究回顾并反对使用 Permuate-and-predict 方法来解释黑盒函数,特别是在特征之间存在强依赖性时,常用的变量重要性度量、局部依赖图和个体条件期望图具有误导性,我们提出了使用额外建模来替代这些指标的建议,并描述了如何在保持数据特征独立性的情况下测量模型性能变化。
May, 2019
本文介绍了一种解释性特征重要性算法SSFI,可以识别对于单个样本预测最重要的特征,并通过随机森林分类器/回归器的预测路径计算低级特征重要性,从而得出特征的相对重要性排序,同时在四个不同数据集上提出了数值和可视化结果。
Nov, 2019
本文介绍了 Metadata Normalization(MDN)层,一种用于深度学习框架的批处理级别操作,可以消除外部变量对特征分布的影响,MDN采用传统预处理技术中的回归分析方法来进行操作。实验证明,该方法可以成功地从四个不同数据集中消除元数据影响。
Apr, 2021
对Jaccard指数及其相关的一些扩展进行理论研究,包括一种新的巧合指数,该指数在比较两个实体集时可以考虑相对内含度的水平,适用于连续向量空间、多重集、密度和通用标量场的扩展,以及量化两个随机变量之间的联合相互依赖性的方法。
Oct, 2021
提出了一种基于高斯混合模型的复合批量归一化方法来解决长尾数据分布下神经网络中特征标准化的问题,并通过使用类感知分裂特征标准化的双路径学习框架来多样化估计高斯分布,以更全面地适应训练样本的处理方式。在多个普遍使用的数据集上的广泛实验表明,该方法在长尾图像分类上优于现有方法。
Dec, 2022
模型分类时数据归一化很重要,处理数据流的数据规范化尤其具有挑战性,本文比较了在数据流中应用8种距离函数的准确性,结果表明,在不进行规范化的情况下使用原始数据流和Canberra距离可获得良好的结果。
Jun, 2023
本文提出了一种基于Wasserstein度量的分布化空间中的实例分类方法,其中包括使用k最近邻算法、k均值聚类和伪混合建模等基于距离的分类算法。通过最大化Fisher比例的原则,通过迭代算法在向量空间中进行比例最大化来实现此方法,以增强分类性能,并证明其优于操作基于分布数据的向量表示的已建立算法。
May, 2024
本研究针对高维数据降维投影中的常用质量指标“归一化应力”的敏感性问题进行了探讨。我们提出了一种简单的方法来使归一化应力具有尺度不变性,从而准确反映投影的真实表现。研究结果表明,该方法在评估降维技术时具有显著的影响力。
Aug, 2024
本文研究了模式识别中所面临的特征选择和变换问题,比较了基于欧几里得距离和相似性指数的k邻近监督分类方法的效果。研究发现,在特征密度偏斜的情况下,基于相似性指数的方法具有更好的分类准确性,尤其在处理相邻组数据集时,分类性能的优越性与数据元素比较的锐利度是相互独立的。
Sep, 2024