比例特征空间中的归一化

Sep, 2024

Normalization in Proportional Feature Spaces

Alexandre Benatti, Luciano da F. Costa

TL;DR本研究针对特征归一化在数据表达和分析中的重要性，探讨了如何根据特征的性质和后续处理方法选择适当的归一化方法。提出了一种新颖的方法，通过建立均匀特征与比例特征之间的关系，提出了两种基于非集中离散度的归一化方法，首次引入了一种改进的Jaccard相似度指数，展示了对比操作的一致性条件。研究结果为特征归一化提供了理论基础及应用潜力。

Abstract

The subject of features Normalization plays an important central role in data representation, characterization, visualization, analysis, comparison, classification, and modeling, as it can substantially influence and be influenced by all of these activities and respective aspects. The

发现论文，激发创造

学习统计推断相关特征

通过深度典型相关分析(DCCA)找出可以最真实地从一种数据视角推导出的特征，进而构建出一非参数隐含联合概率分布的经典版本，以求解贝叶斯估算和标准偏差，并测试其在OCCLUD MNIST图像推理和监督学习中的可行性和效率，同时探索了发现单个数据集中显著的独立变量的可能性。

Apr, 2019

无限制置换强制外推: 变量重要性需要至少一个更多的模型，或者不存在自由变量重要性

本文研究回顾并反对使用 Permuate-and-predict 方法来解释黑盒函数，特别是在特征之间存在强依赖性时，常用的变量重要性度量、局部依赖图和个体条件期望图具有误导性，我们提出了使用额外建模来替代这些指标的建议，并描述了如何在保持数据特征独立性的情况下测量模型性能变化。

May, 2019

单样本特征重要性：一种可解释算法用于低层特征分析

本文介绍了一种解释性特征重要性算法SSFI，可以识别对于单个样本预测最重要的特征，并通过随机森林分类器/回归器的预测路径计算低级特征重要性，从而得出特征的相对重要性排序，同时在四个不同数据集上提出了数值和可视化结果。

Nov, 2019

元数据规范化

本文介绍了 Metadata Normalization（MDN）层，一种用于深度学习框架的批处理级别操作，可以消除外部变量对特征分布的影响，MDN采用传统预处理技术中的回归分析方法来进行操作。实验证明，该方法可以成功地从四个不同数据集中消除元数据影响。

Apr, 2021

Jaccard指数的进一步推广

对Jaccard指数及其相关的一些扩展进行理论研究，包括一种新的巧合指数，该指数在比较两个实体集时可以考虑相对内含度的水平，适用于连续向量空间、多重集、密度和通用标量场的扩展，以及量化两个随机变量之间的联合相互依赖性的方法。

Oct, 2021

复合批标准化用于长尾图像分类

提出了一种基于高斯混合模型的复合批量归一化方法来解决长尾数据分布下神经网络中特征标准化的问题，并通过使用类感知分裂特征标准化的双路径学习框架来多样化估计高斯分布，以更全面地适应训练样本的处理方式。在多个普遍使用的数据集上的广泛实验表明，该方法在长尾图像分类上优于现有方法。

Dec, 2022

流式场景下的距离函数和归一化

模型分类时数据归一化很重要，处理数据流的数据规范化尤其具有挑战性，本文比较了在数据流中应用8种距离函数的准确性，结果表明，在不进行规范化的情况下使用原始数据流和Canberra距离可获得良好的结果。

Jun, 2023

Wasserstein度量空间中的规范变量

本文提出了一种基于Wasserstein度量的分布化空间中的实例分类方法，其中包括使用k最近邻算法、k均值聚类和伪混合建模等基于距离的分类算法。通过最大化Fisher比例的原则，通过迭代算法在向量空间中进行比例最大化来实现此方法，以增强分类性能，并证明其优于操作基于分布数据的向量表示的已建立算法。

May, 2024

“归一化应力”并未归一化：如何正确解读应力

本研究针对高维数据降维投影中的常用质量指标“归一化应力”的敏感性问题进行了探讨。我们提出了一种简单的方法来使归一化应力具有尺度不变性，从而准确反映投影的真实表现。研究结果表明，该方法在评估降维技术时具有显著的影响力。

Aug, 2024

涉及偏斜特征密度的监督模式识别

本文研究了模式识别中所面临的特征选择和变换问题，比较了基于欧几里得距离和相似性指数的k邻近监督分类方法的效果。研究发现，在特征密度偏斜的情况下，基于相似性指数的方法具有更好的分类准确性，尤其在处理相邻组数据集时，分类性能的优越性与数据元素比较的锐利度是相互独立的。

Sep, 2024