逻辑回归的核心集

May, 2018

On Coresets for Logistic Regression

Alexander Munteanu, Chris Schwiegelshohn, Christian Sohler, David P. Woodruff

TL;DR使用核心集理论应用于 logistic 回归模型的研究，提出一个统计学上解释直观的复杂度度量方法，并发展了一个新的灵敏度采样方案来处理 logistic 回归中的大量数据，并在真实世界的 logistic 回归基准数据上比较了其性能。

Abstract

coresets are one of the central methods to facilitate the analysis of large data sets. We continue a recent line of research applying the theory of coresets to →

coresets logistic regression complexity measure sensitivity sampling data analysis

发现论文，激发创造

分类学习的核心集 - 简化与加强

给定一种数据矩阵和标签向量，我们使用基于 $l_1$ 拉索 (weight) 的数据子采样方法构建相对误差 Coresets，用于训练包括逻辑损失和铰链损失在内的一系列损失函数的线性分类器，其结果不仅在理论上得到了显著提高，而且在实践中表现优异，可用于主动学习并用于多种训练方案。

Jun, 2021

无尺寸采样核心集用于分类

通过敏感采样框架，我们对用于分类问题的核心集进一步细化和泛化。这种核心集寻求输入数据的最小可能子集，以便可以在核心集上优化损失函数，并且能够保证与原始数据的逼近保证。我们的分析提供了首个维度无关的核心集，因此大小不依赖于维度。此外，我们的结果很通用，适用于分布式输入，可以使用独立同分布的样本，从而提供了样本复杂度的边界，并且适用于各种损失函数。我们开发的一个关键工具是主要敏感采样方法的一个 Radamacher 复杂度版本，这可能是独立感兴趣的。

Feb, 2024

关于正则化损失最小化的核心集

本文设计并数学分析了一种采样算法，用于实现大数据的正则化损失最小化问题，指出如果假设的范数和数据增加时正则化效果不会变弱，那么小规模均匀采样有很高概率成为一个 coreset，尤其在逻辑回归和软间隔支持向量机等方面的表现好。

May, 2019

可扩展贝叶斯逻辑回归的核心集

本文提出了一种基于 Bayesian 方法的核心子集构造算法，可有效加速后验推断算法，适用于大规模数据集。该方法具有明显的理论保证和实际效果。

May, 2016

离线和流式 Coreset 构建的新框架

本文提出一种改进的 coreset 构建方法，利用 sensitivity sampling 技术，并对 VC dimension 类的函数的采样复杂度进行分析，从而能够更加高效地解决包括聚类等在内的机器学习问题。

Dec, 2016

关于正则化回归的核心集

本文研究基于规范化的正则化回归问题的簇核大小的影响，并在此基础上探讨了正则化回归的核心集比未正则化版本更小的情况，提出了一个修改后的 Lasso 问题，获得比最小二乘回归更小的核心集，并在多响应规则化回归中扩展了我们的方法，并通过实验展示了改进 Lasso 和 L1 回归的核心集表现。

Jun, 2020

多重 $\ell_p$ 回归的核心集

通过构建核心集，我们实现了对多个响应的多元回归目标的近似，并得到了关于样本数量和子空间逼近的几乎最优的界限。

Jun, 2024

机器学习中的差异、核心集和草图

该论文定义了函数族的类差异概念，并提出了一些技术来限制机器学习问题的班别差异，从而证明了高斯核密度估计的 coreset 复杂度存在 ε- 近似 O (sqrt {d}/epsilon) 的解法。除此之外，该论文还提供了两个与之相关的独立结果，提高了流式数据处理和核的低差异序列的发现。

Jun, 2019

贝叶斯核心集质量的一般界限

Bayesian coresets can speed up posterior inference by approximating the full-data log-likelihood function with a surrogate log-likelihood based on a small, weighted subset of the data. This paper provides general upper and lower bounds on the Kullback-Leibler divergence of coreset approximations, applicable in a wide range of models, and demonstrates the theory's flexibility in validation experiments involving multimodal, unidentifiable, heavy-tailed Bayesian posterior distributions.

May, 2024

核心集学习现实检查

本文对来自于 coreset 和 optimal subsampling 文献的多个 logistic regression 方法进行了直接比较，并发现了它们有效性上的不一致性，很多情况下这些方法都没有超过简单的均匀抽样。

Jan, 2023