- AirPlanes: 通过 3D 一致嵌入实现准确的飞机估计
本文提出一种新方法,通过预测多视角一致的平面嵌入来辅助几何方法,将点进行聚类成平面,从而解决了在场景中估计平面表面的问题,并在 ScanNetV2 数据集上表明,该方法优于现有方法和强基线的平面估计任务。
- ICML带有可证明近似保证的动态谱聚类
该研究论文探讨了用于动态演变图的聚类算法,证明了在某些簇结构的条件下,最终图的簇可以被谱聚类算法的动态变体很好地近似,并运行时间复杂度为 O (1) 和查询时间复杂度为 o (n_T),实验证明了该算法的实用性。
- ICML图的双调距离及其高阶变体:理论性质及在中心性和聚类中的应用
基于 biharmonic 和 k-harmonic 距离的连接性、聚类算法和边缘中心性。
- 自监督编码器对未见数据集的聚类的实证研究
用预训练模型在未被训练的数据集上进行推理,探讨其嵌入是否能够形成有意义的聚类,评估自监督模型的嵌入,发现不同于监督模型,自监督模型在训练领域内表现更好,在训练领域外则相反,而微调模型则展示了相反的趋势,聚类提供了一种评估自监督学习表示的方法 - 已知和新兴恶意软件家族的在线聚类
通过使用基于机器学习的在线聚类模型,该研究论文介绍了一种将恶意软件样本在线聚类为恶意软件家族的方法,提高了恶意软件检测和分类的效率。
- 时序聚类 —— 应用于护理路径分析
通过对患者数据的时间序列进行聚类算法,发现和理解医院中的典型护理路径,从而改进未来的医疗实践。本研究将时间序列的两种方法应用到聚类算法中,并通过实验评估在合成和真实应用案例上的效果。
- 使用机器学习方法的隐私政策文件摘录文本自动化总结
本研究使用两种不同的聚类算法(K 均值聚类和预定义质心聚类)展示了两个隐私政策摘要模型。在评估了十种常用聚类算法后,选择了 K 均值作为第一个模型的聚类算法。基于预定义质心聚类算法的摘要模型通过欧氏距离将每个句子与预定义簇中心进行分离来摘要 - 一种无参数的缺失数据聚类算法
在真实世界中,缺少数据集普遍存在。现有的用于缺失数据集的聚类算法首先对缺失值进行插补,然后进行聚类。然而,插补和聚类过程都需要输入参数,太多的输入参数会增加获得准确聚类结果的难度。虽然一些研究表明决策图可以替代聚类算法的输入参数,但当前的决 - 使用 LLM 嵌入进行文本聚类
通过使用大型语言模型(LLMs)的文本嵌入和聚类算法,该研究调查了文本聚类方法对数据集的影响,评估了嵌入对聚类结果的影响、通过摘要进行的维度降低的作用以及嵌入维度和摘要技术的调整。结果显示,LLMs 嵌入在捕捉结构化语言的细微差别方面表现出 - 使用多任务学习的开放知识库规范化
构建大型开放知识库(OKBs)对于许多知识驱动的 Web 应用程序(如 Web 搜索)至关重要。然而,OKBs 中的名词短语和关系短语常常存在冗余和歧义,因此需要研究 OKB 规范化。本文提出了一种名为 MulCanon 的多任务学习框架, - 关于容量车辆路径问题和约束中心基聚类之间的关联
通过将 Capacitated Vehicle Routing Problem(CVRP)转化为 Constrained Centroid-Based Clustering(CCBC),本文提出了一个基于 CCBC 的近似解决方法,该方法利 - 基于平衡 k 均值的不均衡数据聚类
平衡 K-means(EKM)是一种新颖且简单的 K-means 类型算法,通过减少大簇中心聚集的趋势,在不平衡数据上显著改善聚类结果。该论文还介绍了 HKM、FKM 和 EKM 的统一视角,展示它们本质上是梯度下降算法,并与牛顿法有明确的 - 聚类算法的指标对无关特征的敏感性
聚类算法在数据分析中被广泛使用,本文研究了加入无关特征对聚类结果的影响,并发现 Silhouette 系数和 Davies-Bouldin 分数对无关特征最为敏感,因此可用于无监督聚类任务中的特征选择。
- 一种贝叶斯聚类有效性指标
通过引入贝叶斯聚类验证指数(BCVI),本研究基于现有的基础指数,构建了一个可根据使用者应用的可行性,选择次优聚类数量的方法,并通过对真实世界数据集(包括 MRI 脑肿瘤图像)的应用验证了算法的有效性和应用潜力。
- 通过尺度不变的数据预处理使聚类算法能够检测不同密度的聚类
利用 ARES 变换的数据预处理方法可以使聚类算法对数据表示更加鲁棒,并能够检测不同密度的聚类;实证结果表明,在广泛范围的真实数据集上,经过 ARES 转换后的聚类产生更好且更一致的结果。
- 聚类算法快速综述
通过分析现有的聚类算法,我们在五个不同的维度上对主要算法进行分类,以帮助研究人员从不同的角度理解聚类算法,并帮助他们找到适用于解决特定任务的算法。我们还讨论了聚类算法的当前趋势和未来的潜在方向,以及该领域的挑战和未解决的问题。
- 利用均方最大流和 Kemeny 常数进行马尔可夫链图神经网络的大规模训练
我们提出了使用图神经网络解决 Markov 链描述的动力学网络的图划分问题,通过使用编码器 - 解码器架构和简单的 GraphSAGE-based GNNs 能够在这个背景下胜过更大更有表达力的基于注意力的模型。
- Dip - 检验范围的扩展 - 用于聚类的高效可微 p 值计算
过去十年中,Dip-test 在数据挖掘领域引起越来越多的关注,它是一种无参数统计检验方法,可可靠地评估一维样本的单峰性,并返回 Dip 值和相应的单峰性概率 (Dip-p-value)。我们提出了一种专门设计的 sigmoid 函数,用作 - 公平聚类:因果视角
聚类算法可能无意中传播或加剧现有的不平等,导致不公正的表示或有偏见的决策。本文提出了一种聚类方法,该方法结合因果公平度量,以在无监督学习中提供更细致入微的公平方式。我们的方法使得可以指定应该最小化的因果公平度量,并使用已知具有不公平偏差的数 - 一种基于超图的图书馆在线资源推荐方法
分析数字图书馆的使用数据,利用聚类算法(包括基于内容和基于用户访问模式)设计推荐系统,并通过超图算法生成的聚类模型相较基于内容的聚类算法设计的推荐系统更准确。