多重 $\ell_p$ 回归的核心集

ICMLJun, 2024

Coresets for Multiple $\ell_p$ Regression

David P. Woodruff, Taisuke Yasuda

TL;DR通过构建核心集，我们实现了对多个响应的多元回归目标的近似，并得到了关于样本数量和子空间逼近的几乎最优的界限。

Abstract

A coreset of a dataset with $n$ examples and $d$ features is a weighted subset of examples that is sufficient for solving downstream data analytic tasks. Nearly optimal constructions of coresets for least squares and $\ell_p$ linear →

coresets regression multiple response samples subspace approximation

发现论文，激发创造

关于正则化回归的核心集

本文研究基于规范化的正则化回归问题的簇核大小的影响，并在此基础上探讨了正则化回归的核心集比未正则化版本更小的情况，提出了一个修改后的 Lasso 问题，获得比最小二乘回归更小的核心集，并在多响应规则化回归中扩展了我们的方法，并通过实验展示了改进 Lasso 和 L1 回归的核心集表现。

Jun, 2020

Lp 回归的采样算法和核集

该论文提出了一个有效的两阶段抽样算法来解决 Lp 回归问题，包括构建核心集合、采样等方法，并且在算法的证明过程中提出了两个值得研究的概念：条件良好的基和子空间保留采样。

Jul, 2007

离线和流式 Coreset 构建的新框架

本文提出一种改进的 coreset 构建方法，利用 sensitivity sampling 技术，并对 VC dimension 类的函数的采样复杂度进行分析，从而能够更加高效地解决包括聚类等在内的机器学习问题。

Dec, 2016

分类学习的核心集 - 简化与加强

给定一种数据矩阵和标签向量，我们使用基于 $l_1$ 拉索 (weight) 的数据子采样方法构建相对误差 Coresets，用于训练包括逻辑损失和铰链损失在内的一系列损失函数的线性分类器，其结果不仅在理论上得到了显著提高，而且在实践中表现优异，可用于主动学习并用于多种训练方案。

Jun, 2021

核密度估计的近似最优核心集

本文提出了一种能够有效构建 coresets 的方法，可以进行内核密度估计，特别适用于正定内核，且适用于机器学习中非常重要的信息距离和 sinc 内核。

Feb, 2018

使用核心集降维海量稀疏数据集

本文提出了一种解决大规模稀疏矩阵降维问题的实用方法，该方法使用核心集来近似计算矩阵的降维近似值，是计算低秩近似的有效算法。

Mar, 2015

k 均值和 k 中位数聚类的核心集及其应用

该研究的主要内容是利用 coreset 技术提高 k-means 和 k-median 聚类的近似算法，并且可以在流式数据中保持聚类结果。

Oct, 2018

通过链接实现内核密度估计的更强核心集界限

应用偏差方法和串联方法提供改进的核函数广泛类别 Coreset 复杂性的界限，并给出对于高斯核和拉普拉斯核，在数据集均匀有界的情况下，产生 O (√d/ε√loglog (1/ε)) 大小的 Coreset 的随机多项式时间算法，这是以前的技术所不可能的改进。此外，对于恒定的 d，我们得到 O (1/ε√loglog (1/ε)) 大小的拉普拉斯核的 Coreset。最后，我们给出了指数核、Hellinger 核和 JS 核 Coreset 复杂性的最佳已知界限，其中 1/α 是核的带宽参数。

Oct, 2023

关于正则化损失最小化的核心集

本文设计并数学分析了一种采样算法，用于实现大数据的正则化损失最小化问题，指出如果假设的范数和数据增加时正则化效果不会变弱，那么小规模均匀采样有很高概率成为一个 coreset，尤其在逻辑回归和软间隔支持向量机等方面的表现好。

May, 2019

逻辑回归的核心集

使用核心集理论应用于 logistic 回归模型的研究，提出一个统计学上解释直观的复杂度度量方法，并发展了一个新的灵敏度采样方案来处理 logistic 回归中的大量数据，并在真实世界的 logistic 回归基准数据上比较了其性能。

May, 2018