逻辑回归估计的样本复杂度

Jul, 2023

On the sample complexity of estimation in logistic regression

Daniel Hsu, Arya Mazumdar

TL;DR透过研究样本复杂度，我们发现逻辑回归模型的参数估计受到维数和逆温度的影响，其样本复杂度曲线在逆温度上具有两个临界点，明确地分割低、中、高温度区间。

Abstract

The logistic regression model is one of the most popular data generation model in noisy binary classification problems. In this work, we study the sample complexity of estimating the parameters of the

logistic regression model sample complexity parameter estimation inverse temperature data generation process

发现论文，激发创造

高维逻辑回归现代极大似然理论

本研究证明在逻辑回归模型中，当样本量和自变量个数的比例变大时，MLE 的偏差和方差均远大于经典预测所得，常用的 LRT 也未能满足卡方分布，因此现有的软件包所得出的推论是不可靠的。

Mar, 2018

逻辑回归的可证明准确性随机抽样算法

在统计学和机器学习领域，逻辑回归是一种广泛应用于二分类任务的监督学习技术。本研究提出一种基于随机抽样的简单算法，针对逻辑回归问题，确保对模型的预测概率和整体差异都能得到高质量的近似。研究分析了当采用杠杆得分对观测数据进行抽样时，逻辑回归的预测概率的属性，并证明可以通过样本规模远小于总观测数据量来实现准确的近似。通过全面的实证评估验证了我们的理论发现，研究为在大规模数据集上高效近似逻辑回归的预测概率提供了实用和计算高效的解决方案。

Feb, 2024

限制生成模型的测试对数似然

研究提出了一种更高效的密度估计方法，从而解决了一些复杂的生成学习算法中难以估计模型质量的问题，并证明其提供了真实测试对数似然的下界和无偏估计，同时还提出了一种偏差估计的变体，可以在有限的样本数下可靠地用于模型比较。

Nov, 2013

基于 Tsallis 离散度的双温度逻辑回归

我们开发了一个新的多类逻辑回归变种，通过引入两个温度参数，实现了对噪声更加稳健的分类器。在实验中发现，我们提出的模型不仅具有更好的鲁棒性，而且可以方便地控制分类器的凸性程度，这对于数据中存在大量异常值的场景特别重要。

May, 2017

大样本逻辑回归的最优子采样

本文提出了一种针对逻辑回归模型的快速子抽样算法，利用优化方法降低计算时间，通过理论和实验分析验证其性能。

Feb, 2017

高维逻辑回归中最大似然估计存在的相变

本文通过建立高维逻辑回归模型中最大似然估计 MLE 存在性的分界曲线，证明 MLE 的存在性具有 “相变” 的特性，当问题具有足够高的维数时 MLE 几乎不可能存在，曲线参数由回归系数未知序列的整体大小确定。

Apr, 2018

正则化对高维逻辑回归的影响

本文研究了高维情况下正则化逻辑回归（RLR），其中加入了鼓励所需结构的凸正则项。通过求解一组非线性方程组，我们提供了 RLR 性能的精确分析，并获得了各种性能度量的显式表达式。我们进行了广泛的数值模拟，并在各种参数值和问题实例中验证了理论。

Jun, 2019

逻辑回归：随机和在线优化的紧密边界

本研究探讨了逻辑损失与其他广泛考虑的选项（如铰接损失）的区别，结论认为逻辑损失函数并没有优势。

May, 2014

相关数据线性回归中的噪声水平

本文研究了无实现性假设下具有相关 ($\beta$-mixing) 数据的随机设计线性回归的上界，并得出与中心极限定理预测的方差项恰当相符的结果。

May, 2023

分类中异方差标签噪声的 Logistic-Normal 似然函数

本研究提出了一种简单的概率建模方法，将分类问题中异方差标签误差的考虑引入到损失函数中，以达到减少过拟合，提高鲁棒性的效果。

Apr, 2023