一种基于信息熵负载的聚类方法
该研究提出一种基于信息论原理且无需参数假设的数据聚类新方法,将信息论用于无偏见的数据分类可能会从根本上导致聚类性能恶化,而作者们则基于信息论的基本概念,提出了一种新的聚类度量方法,通过对有限数据的粗粒化一致性来定义含义。
Oct, 2013
该研究采用信息理论的视角来重新构造聚类问题,避免了许多现有聚类方法所依赖的非常规结构的假设,且捕捉了非线性关系。基于集体相似度而非传统的成对度量,该方法在不同领域内都表现出比现有算法更高的聚类一致性。
Nov, 2005
通过使用参数熵以基于熵的质心初始化方法对图像数据进行 k-means 性能分析,并提出了适用于一般图像数据集的最佳熵测量,我们观察到对于不同的数据集,不同的熵比传统方法提供更好的结果。我们在 Satellite、Toys、Fruits、Cars、Brain MRI 和 Covid X-Ray 的数据集上应用了我们提出的算法。
Aug, 2023
该论文提出了一种基于核特征值分解的新型信息最大化聚类方法,该方法使用变体的互信息的平方误差作为目标函数进行聚类,具有高效性和可解性。同时,该方法还提供了一个实用的模型选择过程来优化核函数中包含的调整参数,并通过实验证明了该方法的实用性。
Dec, 2011
研究聚类问题中的最优聚类数量问题,提出了一种基于信息理论框架的方法,其利用熵和温度之间的关系来找到数据集的最佳聚类数量,以及通过校正聚类标准来解决采样误差问题,找到最大的有意义结构和聚类的解决方案。
Mar, 2003
本文提出了一个使用再生核希尔伯特空间中的算子直接从数据中非参数地获取熵测度的框架,并定义了类似于量子熵的熵泛函,此方法避免了估计底层概率分布。同时定义了基于核的条件熵和互信息的估计量,并在独立性测试上进行了数值实验且表现良好。
Nov, 2012
提出了一种基于 infomax 原理的框架,可实现对大规模神经群体进行无监督学习。该方法使用基于渐近的方法来对大规模神经群体的信息论下限进行计算,通过渐进性的不断往全局信息论最优解靠近的过程,可以获得一个很好的初始值。基于该初始值,提出了一个高效的算法来从输入数据集中学习特征表示,并且该方法适用于完备、过完备和欠完备情况下的基函数。和现有的方法相比,该算法在无监督表示学习的训练速度和鲁棒性方面都具有明显的优势,而且还可以轻松地扩展到用于训练深层结构网络的监督或无监督模型。
Nov, 2016
本文提出了一种基于 Shannon 熵的文档分类模型,该模型采用丰富信息和均匀多样的关键词匹配,在无需任何正样本的情况下提供了一种简单且可解释的解决方案,并展示了 Shannon 熵显著提高了召回率的能力。同时,该模型还表现出更强的鲁棒性和适应性,尤其是在正样本数量非常有限的情况下。
Jun, 2022
利用伪监督和一致性正则化的半监督图像分类方法,在最大化增强视图之间的互信息下限时,通过信息熵神经估计利用未标记样本的潜力,从理论上分析出图像分类器的信息熵通过最大化 softmax 预测的似然函数近似估计。在这些见解的指导下,我们从两个角度优化我们的模型,以确保预测的概率分布与真实分布紧密一致,并通过大量实验证明其卓越性能。
Apr, 2024
本文通过信息论分析研究了几种不同的分配方法,包括 “硬分配” 和 “软分配”,发现 K-means 和 EM 算法之间的系统差异。同时提出了一种后验分配方法,与 EM 的 “软分配” 相似,但具有截然不同的算法。
Feb, 2013