核心集学习现实检查
通过开发一个新的算法 COPS,我们提出了一个理论上最佳的解决方案,以最小化从样本数据训练的模型的预期损失。我们的方法在深度学习任务中可以有效地应用,通过使用模型的对数几率来估计采样比例,并通过低密度样本的降权方法来解决模型对错误规范的敏感性挑战。实证实验表明,COPS 相对于基线方法具有卓越的性能。
Sep, 2023
使用核心集理论应用于 logistic 回归模型的研究,提出一个统计学上解释直观的复杂度度量方法,并发展了一个新的灵敏度采样方案来处理 logistic 回归中的大量数据,并在真实世界的 logistic 回归基准数据上比较了其性能。
May, 2018
这篇论文研究数据分析中的线性回归和数据素描技术,探讨在样本量有限的情况下如何选择行列子集对数据进行估计和推断,发现虽然算法上的优化子集无法适用于预测和推断,但通过统计学方法可以提供建议的子集大小,并通过实验表明,使用不同的子集来估计结果可以将预测结果效率与使用全样本的方法几乎相同。
Jul, 2019
本文设计并数学分析了一种采样算法,用于实现大数据的正则化损失最小化问题,指出如果假设的范数和数据增加时正则化效果不会变弱,那么小规模均匀采样有很高概率成为一个 coreset,尤其在逻辑回归和软间隔支持向量机等方面的表现好。
May, 2019
给定一种数据矩阵和标签向量,我们使用基于 $l_1$ 拉索 (weight) 的数据子采样方法构建相对误差 Coresets,用于训练包括逻辑损失和铰链损失在内的一系列损失函数的线性分类器,其结果不仅在理论上得到了显著提高,而且在实践中表现优异,可用于主动学习并用于多种训练方案。
Jun, 2021
本文提出了一种利用接受 - 拒绝机制,在特征空间中调整局部类别平衡的逻辑回归子采样方法,其偏倚的子采样通过后期分析参数调整得到校正。实验证明,该方法在处理分类问题中的显著类别不平衡时,能够比标准的病例 - 对照子采样获得更好的效果。
Jun, 2013