分类学习的核心集 - 简化与加强
使用核心集理论应用于 logistic 回归模型的研究,提出一个统计学上解释直观的复杂度度量方法,并发展了一个新的灵敏度采样方案来处理 logistic 回归中的大量数据,并在真实世界的 logistic 回归基准数据上比较了其性能。
May, 2018
本文提出一种改进的 coreset 构建方法,利用 sensitivity sampling 技术,并对 VC dimension 类的函数的采样复杂度进行分析,从而能够更加高效地解决包括聚类等在内的机器学习问题。
Dec, 2016
本文设计并数学分析了一种采样算法,用于实现大数据的正则化损失最小化问题,指出如果假设的范数和数据增加时正则化效果不会变弱,那么小规模均匀采样有很高概率成为一个 coreset,尤其在逻辑回归和软间隔支持向量机等方面的表现好。
May, 2019
通过敏感采样框架,我们对用于分类问题的核心集进一步细化和泛化。这种核心集寻求输入数据的最小可能子集,以便可以在核心集上优化损失函数,并且能够保证与原始数据的逼近保证。我们的分析提供了首个维度无关的核心集,因此大小不依赖于维度。此外,我们的结果很通用,适用于分布式输入,可以使用独立同分布的样本,从而提供了样本复杂度的边界,并且适用于各种损失函数。我们开发的一个关键工具是主要敏感采样方法的一个 Radamacher 复杂度版本,这可能是独立感兴趣的。
Feb, 2024
该论文定义了函数族的类差异概念,并提出了一些技术来限制机器学习问题的班别差异,从而证明了高斯核密度估计的 coreset 复杂度存在 ε- 近似 O (sqrt {d}/epsilon) 的解法。除此之外,该论文还提供了两个与之相关的独立结果,提高了流式数据处理和核的低差异序列的发现。
Jun, 2019
Bayesian coresets can speed up posterior inference by approximating the full-data log-likelihood function with a surrogate log-likelihood based on a small, weighted subset of the data. This paper provides general upper and lower bounds on the Kullback-Leibler divergence of coreset approximations, applicable in a wide range of models, and demonstrates the theory's flexibility in validation experiments involving multimodal, unidentifiable, heavy-tailed Bayesian posterior distributions.
May, 2024
应用偏差方法和串联方法提供改进的核函数广泛类别 Coreset 复杂性的界限,并给出对于高斯核和拉普拉斯核,在数据集均匀有界的情况下,产生 O (√d/ε√loglog (1/ε)) 大小的 Coreset 的随机多项式时间算法,这是以前的技术所不可能的改进。此外,对于恒定的 d,我们得到 O (1/ε√loglog (1/ε)) 大小的拉普拉斯核的 Coreset。最后,我们给出了指数核、Hellinger 核和 JS 核 Coreset 复杂性的最佳已知界限,其中 1/α 是核的带宽参数。
Oct, 2023
该文章提出了一种稳健的 coreset 构建算法,在中心化和分布式框架下生成符合一定理论条件的 coreset,以支持各类机器学习问题的高效求解。实验证明该算法具有较强的健壮性。
Apr, 2019
本文对来自于 coreset 和 optimal subsampling 文献的多个 logistic regression 方法进行了直接比较,并发现了它们有效性上的不一致性,很多情况下这些方法都没有超过简单的均匀抽样。
Jan, 2023