用于硬和软 Bregman 聚类的强核心集及其在指数族混合模型中的应用
提出了一种轻量级 coresets 算法,用于 k-means 聚类和 Bregman 聚类,能同时允许乘性和加性误差,在计算效率和结果集大小方面优于现有方法,并可用于统计 k-means 聚类的计算小型模型的摘要。
Feb, 2017
该文章提出利用 coresets 的方法来对高斯混合模型进行计算,这种方法可以在保证训练精度的情况下减少数据量从而加快计算速度,经验结果表明,该方法可以显著减少训练时间而近似误差可以忽略不计。
Mar, 2017
本研究提出了一种基于稀疏约束变分推断视角的 Riemannian coresets 构建算法,与过去的方法相比,该算法不需要一个合理的后验近似。实验结果表明,提出的算法能够不断改善 coreset,大大减小 KL 散度,从而提供最先进的 Bayesian 数据集概括。
Jun, 2019
该文章提出了一种稳健的 coreset 构建算法,在中心化和分布式框架下生成符合一定理论条件的 coreset,以支持各类机器学习问题的高效求解。实验证明该算法具有较强的健壮性。
Apr, 2019
这篇论文介绍了一种基于 Bregman 距离的聚类算法,相较于 Lloyd 的 K-means 算法,在聚类非高斯数据方面有更好的表现,并提供了理论依据和实验验证。
Jun, 2022
Bayesian coresets can speed up posterior inference by approximating the full-data log-likelihood function with a surrogate log-likelihood based on a small, weighted subset of the data. This paper provides general upper and lower bounds on the Kullback-Leibler divergence of coreset approximations, applicable in a wide range of models, and demonstrates the theory's flexibility in validation experiments involving multimodal, unidentifiable, heavy-tailed Bayesian posterior distributions.
May, 2024
该文提出了一种叫做 “通用弱核心集” 的概念,用于约束聚类设置中,与最近的约束设置下核心集构建结合使用,能够给出更大的数据压缩、概念上更简单,适用于广泛的约束 $k$- 中位数和 $k$- 均值问题。
May, 2023
本文研究 coresets 和机器学习领域中的最新进展,提出了一种理论上可行的框架来创建分类问题的 coresets,应用到了 $k$-means 聚类问题,同时总结了当前在 MLE 混合模型、贝叶斯非参数模型、主成分分析、回归和经验风险最小化等领域中已有的 coreset 构建算法。
Mar, 2017
应用偏差方法和串联方法提供改进的核函数广泛类别 Coreset 复杂性的界限,并给出对于高斯核和拉普拉斯核,在数据集均匀有界的情况下,产生 O (√d/ε√loglog (1/ε)) 大小的 Coreset 的随机多项式时间算法,这是以前的技术所不可能的改进。此外,对于恒定的 d,我们得到 O (1/ε√loglog (1/ε)) 大小的拉普拉斯核的 Coreset。最后,我们给出了指数核、Hellinger 核和 JS 核 Coreset 复杂性的最佳已知界限,其中 1/α 是核的带宽参数。
Oct, 2023
该研究通过对 coresets 的研究,建立了一个统计框架,分析了非参数密度估计等任务的最小最大估计率,并表明实际 coreset 核密度估计器在很大程度上是接近最小最大优化的。
Nov, 2020