基于数据分布的图像聚类算法
本文提出了一种称为渐进聚类的新技术,它将每个数据点通过其潜在的点维度进行聚类,该点维度是与该点本地数据集的维度有关的尺度。这种渐进聚类技术可以广泛应用于各种数据集的分析中,并通过距离方法以点的第 n 个最近邻点来评估数据点的点维度,同时将其应用于动态系统、图像和人类动作等领域进行分析。
May, 2018
通过利用自动编码器将图像编码为高维潜空间,并使用 Monte-Carlo 边缘化和 Kullback-Leibler 散度损失来拟合 Gaussian Mixture Models (GMM) 的高斯成分和学习数据分布,从而实现图像聚类,并展示在高维空间中,相比于经典的 Expectation-Maximization (EM) 算法,MCMarg 和 KL 散度能够极大地缓解聚类算法面临的困难,实验证明了分布学习在利用 GMM 进行高维图像聚类方面的潜力。
Aug, 2023
研究在高维情况下通过经验风险最小化学习具有通用质心的两个数据点云的特征,涵盖了大量的数据分布,包括高斯混合分布和幂律分布,并分析了通过正则化的作用,推导了估计器的泛化性能,并探究了分布尺度参数对可分离性转换的影响。
Apr, 2023
高维数据具有令人惊讶的特性:仅使用简单的线性分类器就可以高概率地将数据点配对分开,甚至从任意子集中分离出来。我们引入了数据分布的内在维度的新概念,精确地捕捉了数据的可分离性质。对于这个内在维度,以上的经验法则成为一条规律:高内在维度保证了数据的高可分离性。我们将这个概念扩展为两个数据分布的相对内在维度,并证明它提供了成功学习和推广二元分类问题的概率的上下界。
Oct, 2023
通过将 $k$-means 聚类算法重写为最优传输任务,并加入熵正则化,我们提出了一种全新的方法,其中嵌入是由深度神经网络执行的,表明与现有的基于软 $k$-means 的最新方法相比,我们的最优传输方法提供更好的无监督准确度,不需要预训练阶段。
Oct, 2019
本文旨在通过探究基于快速聚类的交替方案,用于替代耗时的函数评估来降低记忆需求,从而处理大规模的脑成像数据。结果表明,基于聚类的压缩在提高之后的估计步骤的精度方面有良好的效果,能够用于分析大型数据集。
Nov, 2015
通过深度自编码器实现非线性降维和聚类,优化作为聚类过程的自编码器,避免之前聚类算法中离散目标的缺陷,无需先验知识即可进行聚类,实验证明该算法优于状态的聚类方案并具有普适性。
Mar, 2018
用 Gromov-Wasserstein 距离的下界,通过对所有数据矩计算,基于内在和多尺度的方法对比数据流形。实验证明,该方法能够有效地识别不同维度未对齐数据的结构,并展示了在评估生成模型质量方面的功效。
May, 2019