聚类的表示学习:一个统计框架
本文研究了基于k-median目标函数的聚类问题,提出了一种称为连续采样的简单但有效的采样技术,并使用该技术开发了一个可在O(nk)时间内运行的算法来解决k-median问题。
Dec, 2012
本文提出了一种同时学习特征表示和聚类分配的深度神经网络方法——深度嵌入聚类(DEC),该方法可将数据空间映射到低维特征空间,并在此优化聚类目标函数,实验结果表明,DEC在图像和文本语料库方面的表现显著超过现有的最先进方法。
Nov, 2015
本文研究了联合聚类和学习表示问题,提出了一种在 $k$-Means 聚类中基于目标函数连续重新参数化的方法,该方法在多个数据集上经过测试证明其在聚类对象的同时学习表示方面的有效性。
Jun, 2018
本文综述了共识聚类的现有文献,探索不同类别之间的关系,并提供了转换基本分区到其他表示形式的共识机制,以及在不同设置和问题上的几种扩展方法和应用,包括约束聚类、域自适应、特征选择和异常检测等。
May, 2019
本文提出了一种使用一致性原则的无监督表示学习算法ConCURL,通过综合考虑共识、示例和种群三种一致性来实现对图像的聚类,并在四个数据集上实现了比现有方法更好的聚类性能。
May, 2021
通过估计数值节点属性之间的网络距离,我们可以创建网络感知嵌入,而不是对网络的节点进行聚类。在本文中,我们修复了无监督学习文献中的这个盲点,并展示了我们的方法在各种领域的应用中始终是有益的,并且可以提供可操作的见解。
Sep, 2023
通过整合基于模型和基于质心的方法,提出了一种高效且自动的聚类技术,解决噪声对聚类质量的影响,并确保无需提前指定聚类数的优点。在模拟和真实数据集上进行了严格评估和统计保证,表明我们提出的方法优于现有先进聚类算法。
Nov, 2023
我们研究数据选择问题,将利用$k$-means聚类和敏感性抽样方法,基于模型损失的嵌入表示,可选择一组典型样本,其平均损失与整个数据集的平均损失相对应,具有可证明的性质,并且在微调基础模型上表现优于最先进的方法,同时展示了它如何应用于线性回归,提供了一个更简单且可扩展性更强的抽样策略。
Feb, 2024
我们提出了一种基于解释驱动的集群选择的解释可调的约束聚类方法,该方法能够生成高质量的且可解释的聚类,其中聚类结果考虑了特征的覆盖率和区分度,并能够整合领域专家知识和用户约束。
Mar, 2024
本研究针对传统K均值聚类中的维度诅咒和类不平衡问题,提出了一种自监督图嵌入框架,通过将流形学习与K均值聚类相结合,以实现无中心的聚类。该方法不仅避免了超参数的影响,还通过最大化$\ell_{2,1}$-范数来自然维护类平衡。实验结果表明,该方法在多个数据集上表现出色且可靠。
Sep, 2024