Jester 数据集的聚类分析：评述

MMOct, 2021

Cluster Analysis on Jester Dataset: A Review

Navoneel Chakrabarty

TL;DR对 Jester 数据集进行聚类分析时，需要先进行数据准备，包括用适当的数值填充缺失的评分值，然后使用无监督机器学习范式进行聚类分析。本研究验证并纠正了对 Jester 笑话数据集进行的聚类分析的最新成果，并提出了未来的研究方向。

Abstract

unsupervised machine learning Paradigms are often the only methodology to rely on, given a Pattern Recognition Task with no target label or annotations being present. In such scenarios, data preparation is a cruc

unsupervised machine learning data preparation cluster analysis jester dataset missing values

发现论文，激发创造

无模式，无认知：关于文本聚类和主题建模可重复性和失真问题的调查

该综述分析了文本聚类和主题建模中无监督学习的初始化和异常值处理问题，提出了通用的术语定义，并总结了相关算法的理论背景。

Aug, 2022

无需地面真值的图像聚类

该论文介绍了一种基于众包模型的图像聚类方法，可应对无法得知聚类数目的情况，该方法的有效性已通过在多个人工数据集上的应用得到了证明。

Oct, 2016

UNSW-NB15 计算机安全数据集：可视化分析

本文通过对 UNSW-NB25 计算机网络安全或入侵检测数据集的视觉分析，检测出两个主要问题即类别不平衡和类别重叠，建议在应用此数据集前先解决这两个问题。

Jan, 2021

聚类的计算理论与半监督算法

提出了一种计算理论和半监督聚类算法，将聚类定义为根据所选的聚类原则和度量方法获得数据分组，使每个组不包含异常值，所有其他示例被认为是边缘点，孤立的异常值、异常簇或未知簇。

Jun, 2023

点形式数据的聚类

本文提出了两种点模式聚类的方法，一种是基于集合的新距离的非参数方法，另一种是基于随机有限集理论的模型方法，并在数值实验中得到验证。

Feb, 2017

评估问卷数据的无监督学习方法 —— 从测量不变性的违反中获取的见解

本文提出了一种基于无监督学习的研究数据处理方法，通过数据准备、问卷聚类和基于聚类结果及每个群组属性的相似性度量，实现了对不同群体之间的自然比较和响应模式的自然描述，并可以安全地应用于各种数据集，即使在不存在测量不变性的情况下。此方法将 (测量不变性的违反) 转化为一种有意义的相似度度量。

Dec, 2023

基于集体核学习的多不完整数据集聚类

本文提出了一种名为 “Collective Kernel Learning” 的方法，利用多个不完整数据集的共享实例来推断潜在的样本相似性，进而解决数据集不完整的问题，通过基于该核矩阵的聚类算法，实验结果表明该方法比其他比较算法在规范化相互信息方面性能提高了两倍。

Oct, 2013

群体智能在数据聚类机制中的作用

本文回顾了最新的数据聚类方法，包括传统算法 K-means 的局限性以及 Swarm-based 算法如何解决大数据集聚类的问题，并比较它们哪个适合特定的实际问题。

May, 2023

将聚类视为不适定问题：K-Means 算法实验

本文研究了基于 KMeans 算法的聚类过程作为反问题的特殊情况，探索了通过主成分分析来改进聚类反问题质量的尝试，并比较了两种定量特征选择方法之间的关系。使用神经科学数据库中的功能性磁共振成像范例来验证结果。

Nov, 2022

监督无监督学习

提出了一种框架，利用从一组有监督数据集获取的知识来处理新的无监督数据集，该框架可以减少无监督学习中的主观性并提供一种评估无监督算法的原则方法，在聚类方面，它可以帮助选择聚类数量和算法，去除异常值并从许多小数据集中学习共性特征，从而实现了零样本学习。

Sep, 2017