无尺寸采样核心集用于分类

Feb, 2024

No Dimensional Sampling Coresets for Classification

Meysam Alishahi, Jeff M. Phillips

TL;DR通过敏感采样框架，我们对用于分类问题的核心集进一步细化和泛化。这种核心集寻求输入数据的最小可能子集，以便可以在核心集上优化损失函数，并且能够保证与原始数据的逼近保证。我们的分析提供了首个维度无关的核心集，因此大小不依赖于维度。此外，我们的结果很通用，适用于分布式输入，可以使用独立同分布的样本，从而提供了样本复杂度的边界，并且适用于各种损失函数。我们开发的一个关键工具是主要敏感采样方法的一个 Radamacher 复杂度版本，这可能是独立感兴趣的。

Abstract

We refine and generalize what is known about coresets for classification problems via the sensitivity sampling framework. Such coresets se

coresets classification problems sensitivity sampling framework approximation guarantees radamacher complexity

发现论文，激发创造

逻辑回归的核心集

使用核心集理论应用于 logistic 回归模型的研究，提出一个统计学上解释直观的复杂度度量方法，并发展了一个新的灵敏度采样方案来处理 logistic 回归中的大量数据，并在真实世界的 logistic 回归基准数据上比较了其性能。

May, 2018

关于正则化损失最小化的核心集

本文设计并数学分析了一种采样算法，用于实现大数据的正则化损失最小化问题，指出如果假设的范数和数据增加时正则化效果不会变弱，那么小规模均匀采样有很高概率成为一个 coreset，尤其在逻辑回归和软间隔支持向量机等方面的表现好。

May, 2019

分类学习的核心集 - 简化与加强

给定一种数据矩阵和标签向量，我们使用基于 $l_1$ 拉索 (weight) 的数据子采样方法构建相对误差 Coresets，用于训练包括逻辑损失和铰链损失在内的一系列损失函数的线性分类器，其结果不仅在理论上得到了显著提高，而且在实践中表现优异，可用于主动学习并用于多种训练方案。

Jun, 2021

简单的弱核心集对于不可分解分类测量

考虑监督分类问题和非可分解评估指标，研究基于分层均匀采样的 coresets 在实证性能与理论保证方面表现优秀，特别针对 F1 得分和 Matthews 相关系数这两个广泛使用且难以优化的非可分解目标函数，证明均匀 coresets 达到了 coreset 大小的下界，并且在实验表现上与 “更聪明” 的 coreset 构建策略相当。

Dec, 2023

聚类大数据的收敛时间与准确度权衡

研究在大型数据集上 k-means 和 k-median 聚类的理论和实际运行限制，通过快速压缩数据并在压缩表示上进行聚类，提供了有效聚类的理论和实践蓝图。

Apr, 2024

基于统计学视角的 Coreset 密度估计

该研究通过对 coresets 的研究，建立了一个统计框架，分析了非参数密度估计等任务的最小最大估计率，并表明实际 coreset 核密度估计器在很大程度上是接近最小最大优化的。

Nov, 2020

离线和流式 Coreset 构建的新框架

本文提出一种改进的 coreset 构建方法，利用 sensitivity sampling 技术，并对 VC dimension 类的函数的采样复杂度进行分析，从而能够更加高效地解决包括聚类等在内的机器学习问题。

Dec, 2016

应用于推广限制的神经网络压缩数据相关聚类

提出了基于 Coresets 的神经网络压缩算法，利用重要性采样方案削减冗余参数并保留重要参数，通过理论分析表明压缩网络的大小和准确性得到保证，并给出了新的一般性界限，对神经网络的泛化特性提供了新视角，并在各种神经网络配置和实际数据集上证明了算法的实际有效性。

Apr, 2018

机器学习中的差异、核心集和草图

该论文定义了函数族的类差异概念，并提出了一些技术来限制机器学习问题的班别差异，从而证明了高斯核密度估计的 coreset 复杂度存在 ε- 近似 O (sqrt {d}/epsilon) 的解法。除此之外，该论文还提供了两个与之相关的独立结果，提高了流式数据处理和核的低差异序列的发现。

Jun, 2019

基于核集的数据独立神经剪枝

这篇论文提出了一种基于 coreset 方法的神经剪枝算法，可在不影响准确性的情况下压缩神经网络，并在 MNIST 数据集上进行了实验。

Jul, 2019