本文介绍了互信息这一信息论中的重要量,在分类学和社区检测分析中被广泛应用,但在实际应用中常常会由于丢失关键的部分而产生误差。针对这一问题,本文提出了一种修正的互信息量,并讨论了该量化指标的实际实现方法和实例应用。
Jul, 2019
本文提出了一种方法,将计算出的社区标签映射到基准标签中,并使用 kappa 指数和 F-score 来评估检测到的社区结构。实验结果证明了我们方法的优势,解决了现有指标在计算社区结构质量时出现的问题。
Jul, 2018
本文提出了一种名为 MIC 算法的层次聚类数据的方法,采用相互信息作为相似度度量,并利用其聚组特性。将此方法应用于从线粒体 DNA 序列构建系统发育树以及独立成分分析(ICA)的输出。
Nov, 2003
本文通过对四个广泛使用的网络聚类算法的严格分析,研究了独立集群质量指标和信息恢复度量之间的关系,并发现不同集群质量度量的结果存在显着差异,其中 conductance 是最能表明信息恢复度量性能的单独质量度量,但这也存在缺陷。在人工合成图和不同规模的实际数据集上的实验表明,Smart Local Moving 算法的表现最佳,但是各个算法的聚类评估指标的差异需要进行更多的研究。
May, 2016
本文构建了一个多样的分布族,展示了语言无关基准平台用于互信息估计器的实用性和局限性,并提出了适应问题困难度的适当估计器的选择指南及应用估计器时需要考虑的问题。
Jun, 2023
本文介绍了深度聚类中相互信息作为无监督训练神经网络的客观标准的最大化并不能得到令人满意的聚类结果,并将核心距离更改为常见的挑战导致的原因。因此,我们通过引入广义相互信息 (GEMINI) 来推广相互信息,它是一组用于无监督神经网络训练的指标。与相互信息不同,一些 GEMINI 在训练时不需要正则化,因为它们在数据空间中具有几何意识的距离或核函数。最后,我们强调 GEMINI 可以自动选择相关的聚类数目,这是在深度判别聚类上很少研究的一个特性,因为聚类数目是先验未知的。
Sep, 2023
本文提出了一种新的无监督神经网络训练度量标准 —— 广义互信息 (GEMINI),相比于互信息,它不需要正则化且可自动选择群聚数目,并且是数据空间的几何感知度量,从而提供更好的聚类效果。
Oct, 2022
提出了一种在大型网络中估计信息关系的实用方法,可以可靠地估计互信息和多个信息项,并通过基因表达、金融市场和消费者偏好等领域的分析加以说明。
Feb, 2005
提出了一种基于 Kolmogorov 复杂性的新的 “归一化信息距离” 度量方法,证明它是度量,称之为 “相似度量”,并演示了两个应用:比较整个线粒体基因组并推断它们的进化历史以及完全自动计算 52 种不同语言的语言树。
Nov, 2001
本文介绍基于 Tsallis 熵的广义信息熵测量值计算方法,并将其应用于聚类比较中,从而提供了 AR1 和 AMI 的最佳应用场景和使用指南。
Dec, 2015