一种基于信息熵负载的聚类方法

Sep, 2022

A Clustering Method Based on Information Entropy Payload

Shaodong Deng, Long Sheng, Jiayi Nie, Fuyi Deng

TL;DR本文提出了一种基于信息理论的聚类方法，通过该方法聚类结果的熵载荷能够最大化，避免了需要预设特定参数的问题，可用于图像分割、对象分类等领域，也可作为无监督学习的基础。

Abstract

Existing clustering algorithms such as K-means often need to preset parameters such as the number of categories K, and such parameters may lead to the failure to output objective and consistent clustering results

clustering information theory entropy payload unsupervised learning image segmentation

发现论文，激发创造

信息熵聚类探秘

该研究提出一种基于信息论原理且无需参数假设的数据聚类新方法，将信息论用于无偏见的数据分类可能会从根本上导致聚类性能恶化，而作者们则基于信息论的基本概念，提出了一种新的聚类度量方法，通过对有限数据的粗粒化一致性来定义含义。

Oct, 2013

基于信息的聚类

该研究采用信息理论的视角来重新构造聚类问题，避免了许多现有聚类方法所依赖的非常规结构的假设，且捕捉了非线性关系。基于集体相似度而非传统的成对度量，该方法在不同领域内都表现出比现有算法更高的聚类一致性。

Nov, 2005

基于参数熵的 k-means 聚类图像数据集的聚类中心初始化

通过使用参数熵以基于熵的质心初始化方法对图像数据进行 k-means 性能分析，并提出了适用于一般图像数据集的最佳熵测量，我们观察到对于不同的数据集，不同的熵比传统方法提供更好的结果。我们在 Satellite、Toys、Fruits、Cars、Brain MRI 和 Covid X-Ray 的数据集上应用了我们提出的算法。

Aug, 2023

基于平方损失互信息的信息最大化聚类

该论文提出了一种基于核特征值分解的新型信息最大化聚类方法，该方法使用变体的互信息的平方误差作为目标函数进行聚类，具有高效性和可解性。同时，该方法还提供了一个实用的模型选择过程来优化核函数中包含的调整参数，并通过实验证明了该方法的实用性。

Dec, 2011

一个信息论的视角：聚类数量

研究聚类问题中的最优聚类数量问题，提出了一种基于信息理论框架的方法，其利用熵和温度之间的关系来找到数据集的最佳聚类数量，以及通过校正聚类标准来解决采样误差问题，找到最大的有意义结构和聚类的解决方案。

Mar, 2003

利用无限可分核从数据中测量熵

本文提出了一个使用再生核希尔伯特空间中的算子直接从数据中非参数地获取熵测度的框架，并定义了类似于量子熵的熵泛函，此方法避免了估计底层概率分布。同时定义了基于核的条件熵和互信息的估计量，并在独立性测试上进行了数值实验且表现良好。

Nov, 2012

神经群体 Infomax 快速稳健非监督学习的信息论框架

提出了一种基于 infomax 原理的框架，可实现对大规模神经群体进行无监督学习。该方法使用基于渐近的方法来对大规模神经群体的信息论下限进行计算，通过渐进性的不断往全局信息论最优解靠近的过程，可以获得一个很好的初始值。基于该初始值，提出了一个高效的算法来从输入数据集中学习特征表示，并且该方法适用于完备、过完备和欠完备情况下的基函数。和现有的方法相比，该算法在无监督表示学习的训练速度和鲁棒性方面都具有明显的优势，而且还可以轻松地扩展到用于训练深层结构网络的监督或无监督模型。

Nov, 2016

基于香农熵的知识文档分类

本文提出了一种基于 Shannon 熵的文档分类模型，该模型采用丰富信息和均匀多样的关键词匹配，在无需任何正样本的情况下提供了一种简单且可解释的解决方案，并展示了 Shannon 熵显著提高了召回率的能力。同时，该模型还表现出更强的鲁棒性和适应性，尤其是在正样本数量非常有限的情况下。

Jun, 2022

信息匹配：半监督图像分类的熵神经估计

利用伪监督和一致性正则化的半监督图像分类方法，在最大化增强视图之间的互信息下限时，通过信息熵神经估计利用未标记样本的潜力，从理论上分析出图像分类器的信息熵通过最大化 softmax 预测的似然函数近似估计。在这些见解的指导下，我们从两个角度优化我们的模型，以确保预测的概率分布与真实分布紧密一致，并通过大量实验证明其卓越性能。

Apr, 2024

聚类中的硬聚类和软聚类方法的信息论分析

本文通过信息论分析研究了几种不同的分配方法，包括 “硬分配” 和 “软分配”，发现 K-means 和 EM 算法之间的系统差异。同时提出了一种后验分配方法，与 EM 的 “软分配” 相似，但具有截然不同的算法。

Feb, 2013