- 一种聚类的新 Coreset 框架
本文介绍了一种新的 coresets 框架,可以在欧氏空间、翻倍度量、无小度量和一般的度量情况下同时改善 k - 中位数和 k - 均值聚类等问题的最优解的界限。
- 关于可解释性的代价在某些聚类问题中的研究
通过测试,我们发现,在进行 k-means 分类问题时,通过利用决策树可增强算法可解释性,提高性能表现。
- 差分隐私聚类:紧密逼近比率
本论文研究了不同 ially private clustering 任务,为 Euclidean DensestBall、1-Cluster、k-means 和 k-median 等基本聚类问题提供了有效的差分隐私算法,同时只产生小的附加误 - IJCAI具有数据选择偏差的非相关聚类
本文提出了一种新的基于 Decorrelation 正则化 K-Means 算法(DCKM)来解决数据选择偏差对于聚类算法的影响的方法,该方法通过学习全局样本权重可以平衡样本分布,进而排除特征间的意外相关性,并且通过将学习到的权重与 K 均 - 深度变换不变聚类
本研究基于深度学习,提出了新的图像聚类方法,通过学习图像变换并在图像空间直接进行聚类,并可以轻松处理聚类中的不变性,实现了对聚类中心和聚类分配的解释性。研究表明,该方法在标准图像聚类基准测试中具有极高的竞争性和前景性。
- 可解释的 K 均值和 K 中值聚类
本文提出了一种使用决策树对数据集进行聚类的算法,并探讨了该方法对 k-means 和 k-medians 目标函数的适用性。作者证明了常见的自顶向下决策树算法可能会导致成本任意大的聚类结果,但设计了一种有效的方法使用具有 k 个叶子的树生成 - ICMLK - 聚类的个体公平性
本文提出了一种基于局部搜索的算法,用于实现 $k$-median 和 $k$-means(以及任何使用 $\ell_p$ 范数的 $k$- 聚类),并从个体公平性的角度来考虑。我们的算法提供了一个逼近可行的 $k$- 聚类,其 $k$-me - AAAI对聚类算法的无疑惑对抗性攻击
本研究提出了一种黑盒对于线性可分聚类模型的对抗攻击方法,在不知道真实度量的情况下生成溢出性对抗样本,攻击强度高且难以被检测,被证明能够成功攻击多种数据集与聚类算法。
- 多敏感属性聚类的公平性
本文提出了一种公平的聚类方法 FairKM,它基于流行的 K-Means 聚类公式,通过计算公平性与集群一致性目标,得到了公平的聚类。实证评估表明,FairKM 产生的集群在聚类质量和对敏感属性组的公平呈现方面都有显著提高。
- 具有公平约束的聚类核心集
本文提出了一种公平的聚类方法,可以对数据点进行聚类而确保每个聚类中各类别比例的公平分配。该方法采用了基于新构建的核心集的方法,并使用该方法高效处理类别复杂、性别等多个敏感类型的数据,并在成人 (Adult)、银行 (Bank)、糖尿病 (D - 近线性时间内对倍增度量聚类的近似算法
针对度量空间中的经典设施定位、$k$- 中位数和 $k$- 均值问题,我们提供了近线性时间的逼近方案,并展示了针对各种变型问题的技术扩展。
- 深度聚类:判别模型与 K-means 之间的联系
本研究表明,最近的一些判别模型等价于 K-means,并且证明对于常用的逻辑回归后验概率,通过交替方向方法最大化 L2 正则化的互信息等价于软化和正则化的 K-means 损失。这一理论分析不仅将最近的一些判别模型直接联系到了 K-mean - ECCV深度聚类用于视觉特征无监督学习
本文介绍了 DeepCluster,一种聚类方法,它能够联合学习神经网络的参数和聚类分配,并应用于卷积神经网络在大型数据集上的无监督训练,取得了显著的性能提升。
- 使用同一聚类查询的近似聚类
本文提出了一种半监督主动聚类框架 (SSAC),通过进行少量的相同聚类查询,可以在多项式时间内解决 K-means 聚类问题,而且算法不需要边界假设。
- 基于原始对偶算法的 k-Means 和欧几里得 k-Median 的更好保证
该研究采用原始 - 对偶算法来解决 $k$-means 聚类问题,在满足集群数量限制的同时得到了 6.357 - 近似比的效果,并在欧几里得度量中解决了 $k$-median 的问题。
- 局部搜索在双倍指标下为 k-Means 提供 PTAS
使用局部搜索启发式策略,本文证明了在任何固定维度的欧几里得空间中,k-means 问题均可提供 PTAS。
- ICML带有迭代运行时间边界的双树 $k$ 均值
本文提出了一种双树算法,用于加速 k-means 聚类算法在大规模 K 簇和数据集下进行迭代,在使用了覆盖树后,该算法的单次迭代运行时间为 O (N + k log k),并且在实践中表现得很好。
- 流式和分布式大稀疏数据的 k-Means
一个可证明近似稀疏大数据 K-means 问题的流式算法及其性能提升结果,应用了一种稀疏的 (k, ε) 子集算法,可在不依赖于数据和维度的情况下,精确地计算每个点到 k 个中心的平方距离之和,从而使得在离线设置下的启发式算法的性能得到了大 - 字典学习中 ITKM 算法的收敛半径和样本复杂度
本文通过迭代阈值和 K-means 算法展示了,只要初始化在收敛半径内,即在动态范围的倒数 $\log K$ 因子内,样本量与 $K\log K\tilde \varepsilon^{-2}$ 成比例,就可以从带噪声的 $S$ 稀疏信号中恢 - 平衡 k 均值和最小割聚类
本研究介绍使用独占 Lasso 在 k-means 和 Min-Cut 算法中实现更准确均衡的聚类,并通过在几个大规模数据集上的实验证明其与现有聚类算法相比的优越性。