欧几里得空间聚类的核心集:重要性采样几乎是最佳的
本文介绍了一种新的 coresets 框架,可以在欧氏空间、翻倍度量、无小度量和一般的度量情况下同时改善 k - 中位数和 k - 均值聚类等问题的最优解的界限。
Apr, 2021
本文介绍了 Robust k-z 聚类和其在度量空间、算法公平性、欧几里得空间和 FPT 近似等领域的应用,提出了相应的算法,其中在特殊的欧几里得空间中得到了较好的近似结果。
May, 2023
本文提出一种改进的 coreset 构建方法,利用 sensitivity sampling 技术,并对 VC dimension 类的函数的采样复杂度进行分析,从而能够更加高效地解决包括聚类等在内的机器学习问题。
Dec, 2016
给定一种数据矩阵和标签向量,我们使用基于 $l_1$ 拉索 (weight) 的数据子采样方法构建相对误差 Coresets,用于训练包括逻辑损失和铰链损失在内的一系列损失函数的线性分类器,其结果不仅在理论上得到了显著提高,而且在实践中表现优异,可用于主动学习并用于多种训练方案。
Jun, 2021
该研究考虑了针对一组正函数的最小化问题,给出了一个压缩表示法(coresets),用于形状拟合(shape fitting)和近似聚类(approxiate clustering)问题。他们将 epsilon-approximations 与 PAC Learning 和 VC dimension 相联系,并给出了一般函数集的 coresets 的线性时间近似计算方法。
Jun, 2011
本文提出了一种公平的聚类方法,可以对数据点进行聚类而确保每个聚类中各类别比例的公平分配。该方法采用了基于新构建的核心集的方法,并使用该方法高效处理类别复杂、性别等多个敏感类型的数据,并在成人 (Adult)、银行 (Bank)、糖尿病 (Diabetes) 和运动员 (Athlete) 数据集上得到了实证结果。
Jun, 2019
研究在大型数据集上 k-means 和 k-median 聚类的理论和实际运行限制,通过快速压缩数据并在压缩表示上进行聚类,提供了有效聚类的理论和实践蓝图。
Apr, 2024