核心集学习现实检查

AAAIJan, 2023

A Coreset Learning Reality Check

Fred Lu, Edward Raff, James Holt

TL;DR本文对来自于 coreset 和 optimal subsampling 文献的多个 logistic regression 方法进行了直接比较，并发现了它们有效性上的不一致性，很多情况下这些方法都没有超过简单的均匀抽样。

Abstract

subsampling algorithms are a natural approach to reduce data size before fitting models on massive datasets. In recent years, several works have proposed methods for subsampling rows from a →

subsampling data matrix logistic regression coreset optimal subsampling

发现论文，激发创造

可扩展贝叶斯逻辑回归的核心集

本文提出了一种基于 Bayesian 方法的核心子集构造算法，可有效加速后验推断算法，适用于大规模数据集。该方法具有明显的理论保证和实际效果。

May, 2016

通过不确定性估计进行最佳样本选择及其在深度学习中的应用

通过开发一个新的算法 COPS，我们提出了一个理论上最佳的解决方案，以最小化从样本数据训练的模型的预期损失。我们的方法在深度学习任务中可以有效地应用，通过使用模型的对数几率来估计采样比例，并通过低密度样本的降权方法来解决模型对错误规范的敏感性挑战。实证实验表明，COPS 相对于基线方法具有卓越的性能。

Sep, 2023

大样本逻辑回归的最优子采样

本文提出了一种针对逻辑回归模型的快速子抽样算法，利用优化方法降低计算时间，通过理论和实验分析验证其性能。

Feb, 2017

逻辑回归的核心集

使用核心集理论应用于 logistic 回归模型的研究，提出一个统计学上解释直观的复杂度度量方法，并发展了一个新的灵敏度采样方案来处理 logistic 回归中的大量数据，并在真实世界的 logistic 回归基准数据上比较了其性能。

May, 2018

有关算法子采样的计量经济学视角

这篇论文研究数据分析中的线性回归和数据素描技术，探讨在样本量有限的情况下如何选择行列子集对数据进行估计和推断，发现虽然算法上的优化子集无法适用于预测和推断，但通过统计学方法可以提供建议的子集大小，并通过实验表明，使用不同的子集来估计结果可以将预测结果效率与使用全样本的方法几乎相同。

Jul, 2019

关于正则化损失最小化的核心集

本文设计并数学分析了一种采样算法，用于实现大数据的正则化损失最小化问题，指出如果假设的范数和数据增加时正则化效果不会变弱，那么小规模均匀采样有很高概率成为一个 coreset，尤其在逻辑回归和软间隔支持向量机等方面的表现好。

May, 2019

分类学习的核心集 - 简化与加强

给定一种数据矩阵和标签向量，我们使用基于 $l_1$ 拉索 (weight) 的数据子采样方法构建相对误差 Coresets，用于训练包括逻辑损失和铰链损失在内的一系列损失函数的线性分类器，其结果不仅在理论上得到了显著提高，而且在实践中表现优异，可用于主动学习并用于多种训练方案。

Jun, 2021

本地病例 - 对照抽样：解决非平衡数据集中的高效子采样问题

本文提出了一种利用接受 - 拒绝机制，在特征空间中调整局部类别平衡的逻辑回归子采样方法，其偏倚的子采样通过后期分析参数调整得到校正。实验证明，该方法在处理分类问题中的显著类别不平衡时，能够比标准的病例 - 对照子采样获得更好的效果。

Jun, 2013

NYTRO: 当子采样遇到早停

本研究旨在探讨早停止和随机子抽样方法在最小二乘回归设置中的结合，提出了一种基于早停止和随机子抽样的随机迭代正则化形式，并分析了其统计和计算性质。

Oct, 2015

高维正则化回归中的自举和子抽样分析

研究使用重新采样方法估计统计模型的不确定性，探讨其在高维监督回归任务中的性能，特别关注广义线性模型和过参数化区域下的预测一致性与可靠性。

Feb, 2024