超越标签:基于距离分布熵的聚类分析进展 (EDD)
本文提出了一种简单且有效的异常检测算法 ECOD,它是一种无参估计方法,通过计算数据的经验累积分布函数估计数据的尾部概率,进而计算每个数据点的异常得分。通过在 30 个基准数据集上的实验验证,我们发现 ECOD 在准确性、效率和可扩展性等方面均优于其他 11 种现有的异常检测方法。同时,我们还提供了易于使用、可扩展的 Python 实现,以保证算法的可访问性和可重复性。
Jan, 2022
本研究考察了在大规模自然语言序列到序列数据中应用 Ensemble Distribution Distillation (EDD)来压缩昂贵的集成模型的优越性能为成本较低的单一模型的有效性,既能够分离知识(认识不一致性)和数据(随机数据)不确定性,还能解决大词汇量数据的复杂性,并在非分布式检测中表现出色。
May, 2023
本文提出了一种计算大规模相关高维数据集之间的距离的快速方法,称为扩散地球移位距离(Diffusion Earth Mover's Distance)。通过建模数据集为分布并计算相互作用矩阵来实现,该方法的时间复杂度为 O (n),并且比基于树的算法更加准确和可微分,适用于深度神经网络等梯度下降框架。实验通过 210 个 COVID-19 样本的单细胞数据表明该方法比同等精确度的方法至少快两个数量级,且可以嵌入更高层次的患者流形中揭示患者间的结构和异质性,并可适用于其他医学和生物模型中大规模数据集的距离计算。
Feb, 2021
通过使用大数定律重新衍生出的 “对比损失”,我们将其重新解读为一种 “福音”,这种现象使得分布的实例集中在一个狭窄的 “超壳” 上,从而实现数据点的聚类,并且能够从未组织的数据中寻找模式。
Apr, 2018
本文针对高维低样本量情况下聚类算法性能下降的问题,介绍了一种基于云图的 MADD 差异度量方法,并证明了其在高维数据聚类上的有效性;根据理论和实验结果,比较了多种算法及其聚类效果评估方法,发现在使用 MADD 代替欧氏距离时,已有算法的表现得到提升。同时,作者提出了一种基于罚函数 Dunn 指数的新的聚类数目估计方法,在固定样本数量、维数增加的情况下使方法相对于样本数更稳定。最后,研究运用了多组真实和模拟数据集来证明 MADD 方法对高维数据聚类分析中的重要性。
Dec, 2016
本文探讨基于数据维度和结构本身而非基于统计的方法,提出一种计算连续空间熵的测度,称作 ID-Entropy,该熵测度适合在神经网络中广泛使用,可以保留数据固有的维度信息,并在分类器和自动编码器中直接控制泛化差距的大小。
Apr, 2023
提出一种基于混合成分之间的成对距离函数的家族估计器,该家族具有许多优越的性质,可用于计算混合熵,并在优化最大化 / 最小化熵和互信息的问题中非常有用,例如 MaxEnt 和速率失真问题。
Jun, 2017
该论文提出了一种名为 EnD^2 的新方法,它使用 Prior Networks 对模型的输出分布进行建模,并使单个模型保留了集成模型减少计算成本和提高分类性能的同时,还能保留集合多样性的信息,用于估计不确定性。该方法不仅可适用于人工数据集,还取得了在 CIFAR-10、CIFAR-100 和 TinyImageNet 数据集上优于其他方法的成果。
Apr, 2019
提出了用信息理论方法评价 Deep Neural Networks 中的解释器的新方法,并发现 post-hoc 解释器对 DNN 与假象的依赖性具有相当大的信息量,但这种信息常常难以察觉。
Nov, 2022
研究旨在研究异常值对训练阶段的影响,并提出了一种名为 Loss Entropy 的零标签熵度量来推断训练的最佳停止点,然后基于此开发了一种自动化的早停算法 EntropyStop,该算法通过在最大模型检测能力时停止训练来提升 AutoEncoder(AE)的性能。
May, 2024