聚类大数据的收敛时间与准确度权衡
本研究提出一种称为 coresets 的降维方法,可用于在高维欧几里得空间中降低大量数据点的大小,适用于多种数据分析技术,包括 k-means 聚类、主成分分析和子空间聚类,并允许流式处理或分布式算法,其大小与输入点的数量和维度无关。
Jul, 2018
通过敏感采样框架,我们对用于分类问题的核心集进一步细化和泛化。这种核心集寻求输入数据的最小可能子集,以便可以在核心集上优化损失函数,并且能够保证与原始数据的逼近保证。我们的分析提供了首个维度无关的核心集,因此大小不依赖于维度。此外,我们的结果很通用,适用于分布式输入,可以使用独立同分布的样本,从而提供了样本复杂度的边界,并且适用于各种损失函数。我们开发的一个关键工具是主要敏感采样方法的一个 Radamacher 复杂度版本,这可能是独立感兴趣的。
Feb, 2024
本文研究公平聚类问题,提出一种利用核心集合来显著减小输入数据规模的算法,证明了核心集合的可组合性,提出了 Lloyd 算法的变体,并将其扩展为公平 k-means ++ 聚类算法,实现了这些算法并提供了经验证据,表明我们的方法得以规模化运行。
Dec, 2018
提出了一种轻量级 coresets 算法,用于 k-means 聚类和 Bregman 聚类,能同时允许乘性和加性误差,在计算效率和结果集大小方面优于现有方法,并可用于统计 k-means 聚类的计算小型模型的摘要。
Feb, 2017
该研究通过对 coresets 的研究,建立了一个统计框架,分析了非参数密度估计等任务的最小最大估计率,并表明实际 coreset 核密度估计器在很大程度上是接近最小最大优化的。
Nov, 2020
本文研究 coresets 和机器学习领域中的最新进展,提出了一种理论上可行的框架来创建分类问题的 coresets,应用到了 $k$-means 聚类问题,同时总结了当前在 MLE 混合模型、贝叶斯非参数模型、主成分分析、回归和经验风险最小化等领域中已有的 coreset 构建算法。
Mar, 2017
本文提出了一种公平的聚类方法,可以对数据点进行聚类而确保每个聚类中各类别比例的公平分配。该方法采用了基于新构建的核心集的方法,并使用该方法高效处理类别复杂、性别等多个敏感类型的数据,并在成人 (Adult)、银行 (Bank)、糖尿病 (Diabetes) 和运动员 (Athlete) 数据集上得到了实证结果。
Jun, 2019
使用核心集理论应用于 logistic 回归模型的研究,提出一个统计学上解释直观的复杂度度量方法,并发展了一个新的灵敏度采样方案来处理 logistic 回归中的大量数据,并在真实世界的 logistic 回归基准数据上比较了其性能。
May, 2018