该综述分析了文本聚类和主题建模中无监督学习的初始化和异常值处理问题,提出了通用的术语定义,并总结了相关算法的理论背景。
Aug, 2022
该论文介绍了一种基于众包模型的图像聚类方法,可应对无法得知聚类数目的情况,该方法的有效性已通过在多个人工数据集上的应用得到了证明。
Oct, 2016
本文通过对 UNSW-NB25 计算机网络安全或入侵检测数据集的视觉分析,检测出两个主要问题即类别不平衡和类别重叠,建议在应用此数据集前先解决这两个问题。
Jan, 2021
提出了一种计算理论和半监督聚类算法,将聚类定义为根据所选的聚类原则和度量方法获得数据分组,使每个组不包含异常值,所有其他示例被认为是边缘点,孤立的异常值、异常簇或未知簇。
Jun, 2023
本文提出了两种点模式聚类的方法,一种是基于集合的新距离的非参数方法,另一种是基于随机有限集理论的模型方法,并在数值实验中得到验证。
Feb, 2017
本文提出了一种基于无监督学习的研究数据处理方法,通过数据准备、问卷聚类和基于聚类结果及每个群组属性的相似性度量,实现了对不同群体之间的自然比较和响应模式的自然描述,并可以安全地应用于各种数据集,即使在不存在测量不变性的情况下。此方法将 (测量不变性的违反) 转化为一种有意义的相似度度量。
Dec, 2023
本文提出了一种名为 “Collective Kernel Learning” 的方法,利用多个不完整数据集的共享实例来推断潜在的样本相似性,进而解决数据集不完整的问题,通过基于该核矩阵的聚类算法,实验结果表明该方法比其他比较算法在规范化相互信息方面性能提高了两倍。
Oct, 2013
本文回顾了最新的数据聚类方法,包括传统算法 K-means 的局限性以及 Swarm-based 算法如何解决大数据集聚类的问题,并比较它们哪个适合特定的实际问题。
May, 2023
本文研究了基于 KMeans 算法的聚类过程作为反问题的特殊情况,探索了通过主成分分析来改进聚类反问题质量的尝试,并比较了两种定量特征选择方法之间的关系。使用神经科学数据库中的功能性磁共振成像范例来验证结果。
Nov, 2022
提出了一种框架,利用从一组有监督数据集获取的知识来处理新的无监督数据集,该框架可以减少无监督学习中的主观性并提供一种评估无监督算法的原则方法,在聚类方面,它可以帮助选择聚类数量和算法,去除异常值并从许多小数据集中学习共性特征,从而实现了零样本学习。
Sep, 2017