逻辑回归的风险和参数收敛

Mar, 2018

Risk and parameter convergence of logistic regression

Ziwei Ji, Matus Telgarsky

TL;DR运用梯度下降方法解决逻辑回归问题中，得出的迭代结果存在一定程度的偏差，最终趋于数据集的最大可分线性子集的最大间隔预测方向，该方向可以表示数据与偏置的关系，迭代过程中可以逐步地逼近，并且在给定收敛率的前提下，可以恢复出该偏移量。

Abstract

gradient descent, when applied to the task of logistic regression, outputs iterates which are biased to follow a unique ray defined by the data. The direction of this ray is the →

gradient descent logistic regression linearly separable maximum margin predictor risk

发现论文，激发创造

可分数据上梯度下降的收敛性

对采用严格单调尾部的损失函数（如对数损失）在可分离数据集上利用梯度下降时的隐式偏差进行了详细研究，证明了对于一大类超多项式尾部损失，梯度下降迭代可以收敛到任意深度的线性网络的 L2 最大边距解。

Mar, 2018

可分数据下的逻辑回归梯度下降收敛速率

本文证明了在使用可变学习率运行梯度下降时，对于逻辑回归目标函数，损失 f (x) ≤ 1.1・f (x*) + ε，其中误差 ε 按迭代次数指数下降，并按任意固定解决方案 x* 条目大小的多项式下降。该文还将这些思想应用于稀疏逻辑回归，在那里它们导致了稀疏误差交换的指数改进。

Jun, 2023

梯度下降对齐深度线性网络的层

本篇论文研究了在线性可分数据上应用于深度线性网络的梯度流和梯度下降的风险收敛和渐进权重矩阵对齐 —— 一种隐式正则化方法，详细说明了在套用于严格递减损失函数时（梯度下降的递减步长也是如此）：(i) 风险趋近于 0；（ii）标准化的第 i 个权重矩阵渐进等于其秩 - 1 逼近；（iii）这些秩 - 1 矩阵在层之间对齐，即 |vi+1^Tv_i| -> 1。特别地，在逻辑损失（二元交叉熵）的情况下，还可以说更多的结论：网络激发的线性函数 —— 其权重矩阵的乘积 —— 趋向于与最大边际解同方向。这种性质在之前的工作中已被证明，但仅基于对梯度下降的假设，这里的对齐现象可以证明这些假设。

Oct, 2018

分离数据梯度下降的隐式偏差

本研究发现，在无正则化的逻辑回归问题、线性可分数据集上，使用均匀线性预测器的梯度下降法会收敛于最大间隔解的方向。收敛速度缓慢，方法适用于其他单调递减的损失函数、多类别问题和某些受限情况下的深层网络训练。此研究还可帮助理解模型的隐式正则化和其他优化方法。

Oct, 2017

梯度下降遵循普通损失的正则化路径

本论文研究了机器学习中隐含的偏差及其对应的正则化解，并且根据理论证明我们使用的指数型损失函数的正则化效果，可达到最大保边缘的方向，相应的其他损失函数可能会导致收敛于边缘较差的方向。

Jun, 2020

在稳定边缘处进行逻辑回归的梯度下降隐含偏差

本文研究了边缘稳定性（EoS）中逻辑回归上梯度下降（GD）的收敛和隐式偏差情况，证明任何恒定步长的非单调 GD 迭代可以在较长时间尺度上最小化逻辑损失，并在最大间隔方向上趋于正无穷，在最大间隔方向的正交补上收敛于最小化强凸势能的固定向量，而指数损失可能导致 GD 迭代在 EoS 区域内灾难性发散。

May, 2023

逻辑回归：随机和在线优化的紧密边界

本研究探讨了逻辑损失与其他广泛考虑的选项（如铰接损失）的区别，结论认为逻辑损失函数并没有优势。

May, 2014

高维二元线性分类问题的双重下降模型

研究了 logistic regression 中特征子集 $p$ 在 $n$ 训练样本上训练线性分类器的模型，运用梯度下降（GD）方法在逻辑损失上训练分类器。基于 GD 的隐式偏置，在高斯特征情况下揭示了相变现象，对最大似然（ML）解和最大边际（SVM）解的分类误差进行了锐利的表征，得到了分类误差曲线，并揭示了双峰现象。

Nov, 2019

逻辑损失的大步梯度下降：损失的非单调性提高了优化效率

使用常数步长的梯度下降算法应用于线性可分数据的逻辑回归，证明了在初始震荡阶段后，算法能够在 a 步的时间内实现 O (1/(aT)) 的收敛速率，从而在总步数为 T 的情况下，通过积极地调整步长可以达到 O (1/T^2) 的加速损失，无需使用动量或变化的步长调度器。

Feb, 2024

梯度方法在可分数据上永不过拟

本文论述了使用梯度方法和指数损失训练线性预测器时，预测器的收敛方向渐近地趋向于最大边缘预测器，但无论迭代次数有多大，标准梯度方法（特别是梯度流、梯度下降、随机梯度下降）永远不会过拟合可分数据集。

Jun, 2020