学习增强 K 均值聚类
本技术报告介绍了一种名为增强的 k-means 的算法,该算法是 k-means 和逻辑回归的混合体,通过逻辑回归预测当前聚类标签并使用聚类归属概率来控制后续集群均值的重新估计,能有效提高聚类准确性。该算法在 Python 环境下实现。
May, 2017
本研究探讨了增强 $k$-means 聚类算法对抗性操纵的挑战和策略,评估了聚类算法对抗性攻击的易受攻击性,强调了相关的安全风险,并研究了攻击强度对训练的影响,引入了有监督和无监督模型之间的可传递性概念,并突出了无监督模型对样本分布的敏感性。此外,我们还引入和评估了一种对抗性训练方法,该方法提高了在对抗情景下的测试性能,并强调了所提出训练方法中的各种参数的重要性,如连续学习、质心初始化和对抗步数。
Dec, 2023
本文提出了一种基于随机化的近似核 K-means 簇算法,其利用采样点与数据集中所有点之间的核相似性来近似聚类中心,实现了与传统低秩核近似聚类方案相比更好的聚类性能、更短的运行时间和更小的内存需求,最后利用集成聚类技术进一步提高算法性能。
Feb, 2014
该论文提出了一种改进的 K 近邻分类器,它可以自适应地为每个查询选择 K,该选择取决于每个邻域的属性,因此可能在不同点之间显着变化,并且可以利用条件概率推导推导出一些收敛界限。
May, 2019
我们研究数据选择问题,将利用 $k$-means 聚类和敏感性抽样方法,基于模型损失的嵌入表示,可选择一组典型样本,其平均损失与整个数据集的平均损失相对应,具有可证明的性质,并且在微调基础模型上表现优于最先进的方法,同时展示了它如何应用于线性回归,提供了一个更简单且可扩展性更强的抽样策略。
Feb, 2024
本文提出了一种新的近似 k-means 算法,采用多个随机空间分区树将数据预先组装成相邻点的组,并使用邻域信息构造每个簇的闭合形式,从而在分配步骤中只需考虑少量簇的候选项,证明该方法在聚类质量和效率方面优于现有的近似 k-means 算法。
Dec, 2013
本文研究在实际应用中,哪些加性扰动稳定性的实例可以设计有效算法,并证明它们能找到最优聚类。我们提出了一种稳定性定义,并设计了算法以证明稳定实例的最优聚类。当实例具有一定的分离性时,我们显示出一种具有证明保证的鲁棒算法,也能容忍异常值。通过研究真实数据集的稳定性,我们补充了这些结果,并展示了我们的算法在这些基准数据集上的表现。
Dec, 2017
本文研究了一种以监督学习为基础的聚类分析方法,该方法结合了回归和分类,采用整数线性规划方法以及高度可扩展的贪心算法,支持不同类型的聚类定义,并能够展示数据中不同的可解释性的离散聚类结构。
May, 2023