高维逻辑回归现代极大似然理论

Mar, 2018

A modern maximum-likelihood theory for high-dimensional logistic regression

Pragya Sur, Emmanuel J. Candes

TL;DR本研究证明在逻辑回归模型中，当样本量和自变量个数的比例变大时，MLE 的偏差和方差均远大于经典预测所得，常用的 LRT 也未能满足卡方分布，因此现有的软件包所得出的推论是不可靠的。

Abstract

Every student in statistics or data science learns early on that when the sample size largely exceeds the number of variables, fitting a logistic model produces estimates that are approximately unbiased. Every student also learns that there are formulas to predict the variability of th

logistic model mle likelihood-ratio test inference bias

发现论文，激发创造

高维 logistic 回归中的似然比检验在渐近下是一个重新缩放的卡方检验

本文利用近似消息传递理论、非渐近随机矩阵理论和凸几何技术等方法，证明了当变量数量 $p$ 远大于样本量 $n$ 时，逻辑回归模型的似然比检验不再服从卡方分布的事实，并探讨了相应的解决方案。

Jun, 2017

高维逻辑回归中最大似然估计存在的相变

本文通过建立高维逻辑回归模型中最大似然估计 MLE 存在性的分界曲线，证明 MLE 的存在性具有 “相变” 的特性，当问题具有足够高的维数时 MLE 几乎不可能存在，曲线参数由回归系数未知序列的整体大小确定。

Apr, 2018

逻辑回归估计的样本复杂度

透过研究样本复杂度，我们发现逻辑回归模型的参数估计受到维数和逆温度的影响，其样本复杂度曲线在逆温度上具有两个临界点，明确地分割低、中、高温度区间。

Jul, 2023

逻辑回归的可证明准确性随机抽样算法

在统计学和机器学习领域，逻辑回归是一种广泛应用于二分类任务的监督学习技术。本研究提出一种基于随机抽样的简单算法，针对逻辑回归问题，确保对模型的预测概率和整体差异都能得到高质量的近似。研究分析了当采用杠杆得分对观测数据进行抽样时，逻辑回归的预测概率的属性，并证明可以通过样本规模远小于总观测数据量来实现准确的近似。通过全面的实证评估验证了我们的理论发现，研究为在大规模数据集上高效近似逻辑回归的预测概率提供了实用和计算高效的解决方案。

Feb, 2024

正则化对高维逻辑回归的影响

本文研究了高维情况下正则化逻辑回归（RLR），其中加入了鼓励所需结构的凸正则项。通过求解一组非线性方程组，我们提供了 RLR 性能的精确分析，并获得了各种性能度量的显式表达式。我们进行了广泛的数值模拟，并在各种参数值和问题实例中验证了理论。

Jun, 2019

学习参数人口的最大似然估计

研究了在观测了 Bernoulli 试验结果的基础上，针对具有未知分布的参数，利用最大似然估计方法准确地估计总体分布，提出了一种在样本容量不大于总体个体个数的情况下，MLE 能达到统计最优和高效计算的方法。

Feb, 2019

高维回归中的假设检验：高斯随机设计模型下的渐近理论

本文探讨了在高维情况下使用 Lasso 估计器进行线性回归分析中，单个回归系数的 p-value 计算问题，证明了随机设计矩阵的问题可通过解偏差的 Lasso 估计器获得计算解，最后通过统计物理中的 Replica heuristics，推导出普遍高斯设计的标准分布极限。

Jan, 2013

安全贝叶斯广义线性回归

该研究探讨了广义贝叶斯推断在错配模型下的应用，包括广义线性模型，通过 MCMC 抽样来实现广义贝叶斯 Lasso 和 Logistic 回归，并在模拟和真实数据中展示了广义贝叶斯在表现上超过标准贝叶斯的优点。

Oct, 2019

对数线性模型中的最大似然估计

研究了在条件泊松抽样方案下对数线性模型中的最大似然估计，推导了模型参数的最大似然估计器存在的必要和充分条件，探究了自然和均值参数在不存在 MLE 情况下的可估性。此外，提出了拓展最大似然估计算法，并利用对数线性模型的几何性质，为对数线性模型分析的现有算法进行改进和修正。

Apr, 2011

一种新的旧问题视角：线性回归的通用学习方法

通过通用学习的角度重新审视线性回归问题，研究了标签 y 和特征向量 x^T 的线性组合表达式及其学习可行性，证明在训练数据的相关矩阵特征向量构成的子空间上，即使参数个数 M 多于样本个数 N，线性回归也可以具有很好的推广性能。

May, 2019