“归一化应力”并未归一化：如何正确解读应力

Aug, 2024

“归一化应力”并未归一化：如何正确解读应力

"Normalized Stress" is Not Normalized: How to Interpret Stress Correctly

Kiran Smelser, Jacob Miller, Stephen Kobourov

TL;DR本研究针对高维数据降维投影中的常用质量指标“归一化应力”的敏感性问题进行了探讨。我们提出了一种简单的方法来使归一化应力具有尺度不变性，从而准确反映投影的真实表现。研究结果表明，该方法在评估降维技术时具有显著的影响力。

Abstract

Stress is among the most commonly employed Quality Metrics and optimization criteria for dimension reduction projections of high dimensional data. Complex, high dimensional data is ubiquitous across many scientif

发现论文，激发创造

Scikit-dimension: 用于内在维度估计的Python包

本文介绍了一种开源 Python 包—— scikit-dimension，用于推断固有维数，并提供了该包在实际数据和人工数据的大规模基准测试结果。

Sep, 2021

高维数据降维的层次最近邻图嵌入方法

提出了一种基于层次结构的1-最近邻图的新方法，可以在保留数据分布多个级别的分组属性的同时，实现具有可解释机制、可视化品质高、运行速度快且可用于多种场景的非监督降维技术，并在不同规模、不同维度的多个数据集上进行了性能比较。

Mar, 2022

ShaRP：形状规则化的多维投影

该研究提出了一种新型投影技术 ShaRP，它能够帮助用户在高维数据的可视化中更好地掌控投影形状，以满足交互式可视化场景的需求，并且在保证数据质量的同时，也能够很好地应对高维度和大规模数据集。

Jun, 2023

医学图像分类中的鲁棒性压力测试

通过深度神经网络对基于图像的疾病检测进行研究并进行临床验证，通过应力测试评估模型的稳健性和亚组性能差异，发现某些模型能够产生更稳健和公正的性能，并且预训练特征对下游稳健性起重要作用，强调应力测试在图像疾病检测模型的临床验证中应成为标准实践。

Aug, 2023

用于评估无监督表示学习的度量空间幅度

度量空间的规模最近被确定为一种新型不变量，它可以在多个尺度上衡量空间的'有效大小'。通过捕捉数据的几何和拓扑特性，度量空间可以解决无监督表示学习任务中的挑战。我们形式化了有限度量空间的度量函数之间的新概念差异度，并用它们导出了一种用于降维任务的质量度量。我们的度量可以在数据扰动下保持稳定，计算效率高，并且可以对嵌入进行严格的多尺度比较。我们通过一个实验套件展示了我们度量的实用性，其中包括数据可视化的比较。

Nov, 2023

从距离集中和流形效应解释维数灾难

当维度增加时，数据的特征和可解释性变得更加抽象和复杂。在高维空间中，低维空间中的常见模式和关系可能不再成立，这导致回归、分类或聚类模型或算法的性能下降，这被称为维数灾难。本文总结了操作高维数据时面临的五个挑战，并通过理论和实证分析探讨了维数灾难的两个主要原因，即距离集中和流形效应。结果表明，随着维度增加，使用三种典型距离度量（闵可夫斯基距离、切比雪夫距离和余弦距离）的最近邻搜索变得无意义。与此同时，数据包含了更多冗余特征，主成分分析（PCA）的方差贡献偏向于少数几个维度。通过解释维数灾难的原因，我们可以更好地理解当前模型和算法的局限性，并努力提高高维空间中的数据分析和机器学习任务的性能。

Dec, 2023

内在数据集属性对泛化的影响：揭示自然图像与医学图像之间的学习差异

本研究调查神经网络在不同图像领域中的学习差异，发现医学图像和自然图像领域之间存在着显著的缩放差异，并提出了一种与数据科学指标相关的缩放规律，同时揭示了数据集属性对神经网络泛化、表示学习和鲁棒性的影响。

Jan, 2024

利用类别和特征质心增强降维散点图

通过使用由降维得到的 x 和 y 坐标来计算类别质心和特征质心并将其叠加在散点图上，本研究解决了将 x 和 y 轴的含义解释复杂性的问题，展示了这种方法在三种神经遗传疾病表型数据中的应用及类别质心和特征质心的添加如何增加散点图的可解释性。

Mar, 2024

大型数据的外部维度降低方法

本研究针对传统维度降低（DR）方法在处理大型数据集时面临的高运行复杂性和内存需求问题，提出了一种新颖的外部样本扩展方法。通过逐步将新数据插入现有投影，该方法实现了对大数据集的可行维度降低，显著提高了处理能力，并在评估多种DR算法的投影质量及运行效率方面取得了重要发现，推动了大型数据可视化的研究进展。

Aug, 2024

比例特征空间中的归一化

本研究针对特征归一化在数据表达和分析中的重要性，探讨了如何根据特征的性质和后续处理方法选择适当的归一化方法。提出了一种新颖的方法，通过建立均匀特征与比例特征之间的关系，提出了两种基于非集中离散度的归一化方法，首次引入了一种改进的Jaccard相似度指数，展示了对比操作的一致性条件。研究结果为特征归一化提供了理论基础及应用潜力。

Sep, 2024